1708
需用时 03:24
有情感会说话,虚拟人脸Zoe诞生

Zoe像是一个虚拟的人造人,没有实际的肉体,仅存活在屏幕之内,却能使用不同的面部表情和语音语调来表达人类的所有情感。未来,她可能会淘汰目前以文本和音频为主的信息沟通模式,或是成为我们手机之内的“人造人助手”。

这套系统由东芝剑桥实验室(Toshiba’s Cambridge Research Lab)联合剑桥大学工程系打造,缔造者将其命名为“Zoe”。当你看到Zoe的谈吐,肯定会被这种极其科幻的产品模糊了现实感。

Zoe生成的虚拟头像能够展现高兴、愤怒、恐惧等六种人类表情,更关键的是她还能够表达出对应的语音语调。作为操作者,你只需输入文本,再选择需要的表情,屏幕内的人造人便会按要求,咆哮或是温婉地说出这段文字。设计者表示,这是人类有史以来制造出的最写实、最能复刻人类行为的虚拟形象。

Zoe的面容来自一位真实的演员佐伊·李斯特(Zoe Lister),她在《圣橡镇少年传奇》(Hollyoaks)内扮演佐伊·卡朋特(Zoe Carpenter)的角色,选择她的原因,大概是因为系统设计者是这位演员的超级粉丝。为了创造该系统,设计者们花了数日的时间才全面采集了佐伊的表情与谈吐,并通过Zoe系统复制了这么一个虚拟人脸。

关于Zoe的应用前景,它很有可能开辟全新的短信模式。比如你发送一条短信“我可能要迟到了”给朋友,同时选择沮丧的表情,对方便会收到一张人脸,垂头丧气地说“我要迟到了”。就目前而言,Zoe的开发团队还将它应用在特殊儿童学校,辅孤独症以及听力障碍的儿童学习。通过Zoe,这些儿童可以明白不同情绪与文字间的对应关系,还能够便捷地学习唇语。当然,Zeo的应用空间十分宽广,电子游戏、有声读物等领域都能够采纳这种全新的用户界面。

“这个系统将开辟新一代的用户界面,人机交互将变得像人与人沟通一样简单自然。”剑桥大学工程系教授罗伯托·西珀拉(Roberto Cipolla)表达了自己的看法,“我们花了好几天时间才建成第一个虚拟形象,是因为我们要从零开始教会系统如何理解语言和表情。当这一道工序完成后,后来者要更改虚拟形象的颜貌和声音就要简单得多了。”

也就是说,如果你不喜欢这位女演员,Zoe系统内的架构完全支持你将这张人脸换成任何人。与设计初始的艰辛相异,后来者只要花几秒钟上传自己的声音与头像即可。这样一来,这套系统就具备了相当高的开放性,每个人都可以拿它定制自己喜爱的虚拟形象。

别看Zoe功能如此强大,它却是一个相当轻简的系统,只有十几兆大小。系统轻简的最大好处是,它能够被安装在小型计算机设备上,包括手机、平板,亦或是未来有可能出现的各种便携式智能设备。

Zoe的情感生成功能来自于一个类似于雷达图的“性格生成仪表盘”,上面有高兴、悲伤、温柔、愤怒、恐惧与呆板六个属性,你可以轻而易举地通过拉条选取不同分量的不同属性,搭配出自己想要的任意表情。同时,话语的音高、语速、语调等基本属性也都是可调的。

比方说,你拉取了一定的“开心”和“温柔”属性,并且适当地提高语速和语调的深沉,这句话表现出来就是友好而热情的欢迎。假设你拉取了一定的“愤怒”和“恐惧”属性,并适当地提高语速,这句话表现出来就有些恐慌。从理论上说,你可以为在Zoe内复刻所有的人类情感,这种系统的确是前所未有的。

在制作Zoe时,为了让虚拟人像的表现尽可能逼真,设计团队收集了数千个语句的数据,并且邀请佐伊·李斯特本人帮助他们的工作。设计团队通过计算机视觉软件记录佐伊说话时的表情,再将一切信息制作成数据库。通过特定的算法,Zoe能够知道应该在什么时候调取哪一种图像及声音模块。

为测试Zoe的表现是否达到了他们预设的目标,设计团队通过众包平台找来了200位志愿者。每位志愿者都被发放了一段视频和一段音频,20人为一组,每组收到的视频及音频分别对应不同的语句。志愿者被要求在观看视频(没有声音)、收听音频(没有视频)、观看带有音频的视频后分别给出自己的判断,判断音/视频所要表达的情感都是6中情感属性中的哪一种。

结果显示,只看视频、不听声音的志愿者判断正确的概率为52%;只听声音、不看视频的志愿者判断正确的概率为 68%;如果志愿者即观看视频又收听音频,正确率可以达到77%。也许你觉得这个数字并不高,但事实上,在志愿者观看佐伊本人说话时,判断情感正确的概率只有73%!这大概是因为合成的头像在表达情况时更为模式化,也更夸张。

Zoe设计团队目前的主要任务有两点,首先是进一步开辟Zoe的应用空间,其次是进一步完善Zoe的用户自定义功能。“就目前而言,人类和计算机的交互依旧停留在键盘输入、鼠标点击之上,”西珀拉教授表示,“这种模式对于很多人而言是极度不便的。如果我们在未来能够让人类通过更为自然的方式与计算机进行交互,就好比语言和动作,计算机的普及程度肯定会大为提升。这就是我们创造Zoe的目的,创造一个更具表达能力的,能够情感互动的计算机形象,创造一种最自然的交互体验。”

 

本文编译自:CAM Face of the future rears its head

更多内容,请移步果壳网的相关小组

The End

发布于2013-03-24, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

果壳包果核

果壳译者

pic