有情感会说话，虚拟人脸Zoe诞生| 果壳科技有意思

果壳包果核
前沿
工程

1708字
需用时 03:24

有情感会说话，虚拟人脸Zoe诞生

果壳包果核

Zoe像是一个虚拟的人造人，没有实际的肉体，仅存活在屏幕之内，却能使用不同的面部表情和语音语调来表达人类的所有情感。未来，她可能会淘汰目前以文本和音频为主的信息沟通模式，或是成为我们手机之内的“人造人助手”。

这套系统由东芝剑桥实验室（Toshiba’s Cambridge Research Lab）联合剑桥大学工程系打造，缔造者将其命名为“Zoe”。当你看到Zoe的谈吐，肯定会被这种极其科幻的产品模糊了现实感。

Zoe生成的虚拟头像能够展现高兴、愤怒、恐惧等六种人类表情，更关键的是她还能够表达出对应的语音语调。作为操作者，你只需输入文本，再选择需要的表情，屏幕内的人造人便会按要求，咆哮或是温婉地说出这段文字。设计者表示，这是人类有史以来制造出的最写实、最能复刻人类行为的虚拟形象。

Zoe的面容来自一位真实的演员佐伊·李斯特（Zoe Lister），她在《圣橡镇少年传奇》（Hollyoaks）内扮演佐伊·卡朋特（Zoe Carpenter）的角色，选择她的原因，大概是因为系统设计者是这位演员的超级粉丝。为了创造该系统，设计者们花了数日的时间才全面采集了佐伊的表情与谈吐，并通过Zoe系统复制了这么一个虚拟人脸。

关于Zoe的应用前景，它很有可能开辟全新的短信模式。比如你发送一条短信“我可能要迟到了”给朋友，同时选择沮丧的表情，对方便会收到一张人脸，垂头丧气地说“我要迟到了”。就目前而言，Zoe的开发团队还将它应用在特殊儿童学校，辅孤独症以及听力障碍的儿童学习。通过Zoe，这些儿童可以明白不同情绪与文字间的对应关系，还能够便捷地学习唇语。当然，Zeo的应用空间十分宽广，电子游戏、有声读物等领域都能够采纳这种全新的用户界面。

“这个系统将开辟新一代的用户界面，人机交互将变得像人与人沟通一样简单自然。”剑桥大学工程系教授罗伯托·西珀拉（Roberto Cipolla）表达了自己的看法，“我们花了好几天时间才建成第一个虚拟形象，是因为我们要从零开始教会系统如何理解语言和表情。当这一道工序完成后，后来者要更改虚拟形象的颜貌和声音就要简单得多了。”

也就是说，如果你不喜欢这位女演员，Zoe系统内的架构完全支持你将这张人脸换成任何人。与设计初始的艰辛相异，后来者只要花几秒钟上传自己的声音与头像即可。这样一来，这套系统就具备了相当高的开放性，每个人都可以拿它定制自己喜爱的虚拟形象。

别看Zoe功能如此强大，它却是一个相当轻简的系统，只有十几兆大小。系统轻简的最大好处是，它能够被安装在小型计算机设备上，包括手机、平板，亦或是未来有可能出现的各种便携式智能设备。

Zoe的情感生成功能来自于一个类似于雷达图的“性格生成仪表盘”，上面有高兴、悲伤、温柔、愤怒、恐惧与呆板六个属性，你可以轻而易举地通过拉条选取不同分量的不同属性，搭配出自己想要的任意表情。同时，话语的音高、语速、语调等基本属性也都是可调的。

比方说，你拉取了一定的“开心”和“温柔”属性，并且适当地提高语速和语调的深沉，这句话表现出来就是友好而热情的欢迎。假设你拉取了一定的“愤怒”和“恐惧”属性，并适当地提高语速，这句话表现出来就有些恐慌。从理论上说，你可以为在Zoe内复刻所有的人类情感，这种系统的确是前所未有的。

在制作Zoe时，为了让虚拟人像的表现尽可能逼真，设计团队收集了数千个语句的数据，并且邀请佐伊·李斯特本人帮助他们的工作。设计团队通过计算机视觉软件记录佐伊说话时的表情，再将一切信息制作成数据库。通过特定的算法，Zoe能够知道应该在什么时候调取哪一种图像及声音模块。

为测试Zoe的表现是否达到了他们预设的目标，设计团队通过众包平台找来了200位志愿者。每位志愿者都被发放了一段视频和一段音频，20人为一组，每组收到的视频及音频分别对应不同的语句。志愿者被要求在观看视频（没有声音）、收听音频（没有视频）、观看带有音频的视频后分别给出自己的判断，判断音/视频所要表达的情感都是6中情感属性中的哪一种。

结果显示，只看视频、不听声音的志愿者判断正确的概率为52%；只听声音、不看视频的志愿者判断正确的概率为 68%；如果志愿者即观看视频又收听音频，正确率可以达到77%。也许你觉得这个数字并不高，但事实上，在志愿者观看佐伊本人说话时，判断情感正确的概率只有73%！这大概是因为合成的头像在表达情况时更为模式化，也更夸张。

Zoe设计团队目前的主要任务有两点，首先是进一步开辟Zoe的应用空间，其次是进一步完善Zoe的用户自定义功能。“就目前而言，人类和计算机的交互依旧停留在键盘输入、鼠标点击之上，”西珀拉教授表示，“这种模式对于很多人而言是极度不便的。如果我们在未来能够让人类通过更为自然的方式与计算机进行交互，就好比语言和动作，计算机的普及程度肯定会大为提升。这就是我们创造Zoe的目的，创造一个更具表达能力的，能够情感互动的计算机形象，创造一种最自然的交互体验。”

本文编译自：CAM Face of the future rears its head

更多内容，请移步果壳网的相关小组

The End

发布于2013-03-27，本文版权属于果壳网（guokr.com），禁止转载。如有需要，请联系果壳。

举报这篇文章

果壳包果核

果壳译者