4486
需用时 08:58
如何调教 AI 陪人聊天?亚马逊办了一个机器人聊天大赛

(李子李子短信/编译)一间普通的会议室里的桌子上,放着一个亚马逊的智能家居产品“Echo”(里面住着一名叫做Alexa的虚拟助手)——亚马逊在过去的一年里卖掉了2000万件这东西。桌子旁边的蓝色椅子,正对着一排监视摄像头,一束工作室灯光照在椅子上,其它地方都暗得什么都看不见。

一只装着Alexa的Echo。图片来源:Amazon

一名五十多岁的高大男性走了进来,坐在蓝色椅子上,正对着 Echo。他的名字叫迈克·乔治(Mike George),是亚马逊的退休员工。“Alexa,来聊天吧。”

“早上好,朋友。”一个沉静悦耳的合成女声从圆筒里飘了出来,顶上的紫色灯一闪一闪。“还是下午了?我不太确定。”

“是早上。”人类男性说。

“不错,早上人们都比较有活力……话说,你今天怎样?”

“挺好的,你呢?”

“我一直挺忙的,因为大家都跟我聊天……给你讲个好玩的事吧,我刚在 Reddit 上看到的,‘牙膏其实是用在嘴里的肥皂’。”

另一个会议室里,10个亚马逊员工坐成一排,戴着耳机,如中情局一样细致地观察着隔壁场景里的一举一动。第三间会议室里,3个人坐在用黑布帘子隔开的小隔间中,也戴着耳机、看着监控屏,他们是裁判。最后在中控室里,所有的东西都显示在监控显示器上,每个瞬间都被录下来,供亚马逊研究。

决赛现场

这是“Alexa 大奖”的决赛现场。这个比赛向世界上所有大学的人工智能实验室的研究生开放。亚马逊在超过100个申请的团队中筛出了15个团队进入正赛,每个团队都可以获得10万美元的研究支持。他们任务是“做出可以和人闲聊20分钟的社交智能机器人 ”,而赢得大奖赛的团队可以获得100万美元奖金,还有未来令人垂涎的人工智能岗位。

评委在中控室观看Alexa比赛。图片来源:Amazon

为了这个奖,亚马逊不仅投入了大量的人力物力,还把购买Echo的用户也变成了初赛的大众评审。2017年有几个月,任何美国用户对 Alexa 说“来聊天吧”,都会自动连上 15 个参赛团队的聊天机器人中的任意一个,完了再让用户给对话质量打分。最后进入决赛的有3支队伍,接受专业评审的评判。

决赛有点像是“X元素”(X Factor),对话人和裁判都不知道和他们谈话的 Alexa 里的聊天机器人出自谁的手里;坐在隔间里的是裁判,会给对话质量用1-5颗星打分。如果裁判认为这个对话已然进行不下去了,就会按下手中一个否定按钮,两个裁判都按的话,这个对话就算结束了,计时终止。

“我们聊聊音乐吧。”乔治说。

“我爱音乐,每次听音乐能让我放松。”Alexa 说,“所以,你有喜欢的艺术家或者歌曲吗?”

“我喜欢强哥·莱恩哈特(注:法国著名吉他手,爵士乐传奇)。”

“强哥·莱恩哈特?那个特别有名的爵士音乐家?”Alexa 突然开始讲起了另外一个吉他手,“黑色安息日”乐队托尼·艾奥米的故事。艾奥米因为一次工厂事故失去了他的两个指尖,但是深受莱恩哈特的鼓舞——他的左手仅有两个指头。不过话说回来,乔治最喜欢莱恩哈特的哪首歌呢?

乔治回避了这个问题,转而问:“你喜欢杰克·约翰逊(注:美国民谣歌手)吗?”

Alexa 仿佛像被拒绝了一样,回答道:“嘿,别这样,我喜欢和你聊天。”

乔治前倾身子,又说了一遍。“杰克·约翰逊,你喜欢他吗?”

“我喜欢和你聊天。”

一个裁判摁下了结束按钮,一会儿之后另一个裁判也摁了。一名女士走进 Alexa 的房间跟乔治耳语了一下,随后乔治略失望地点了点头,对 Alexa 说:“Alexa,停。”这才过了三分钟。

让AI学会和人聊天,比登月还难

和人聊天,在亚马逊 Alexa 研究部门的前负责人阿施文·拉姆(Ashwin Ram)的眼里,比登月还要困难。对人类来说容易理解的大白话,和 AI 却总是鸡同鸭讲。设闹钟,关掉卧室的灯,这些都没问题,但是却做不来“交谈”这种社会性的活动。人类的对话是捉摸不定的,上下文是快速变换的,联系是极端复杂的,而掌握这些是 AI 当下面对的最难解决的问题之一。历史悠久的图灵测试正是看中了这些特点,而选择把交谈作为AI智能的指标;许多人工智能的研究人员和工程师也为这个问题而深深着迷。

参加这次 Alexa 大赛的,既有出身高大上的精英参赛者、实力强劲的锦标竞争者,也有看起来平凡的草根选手。所有的队伍都面临一个基础的问题:聊天机器人的哪部分需要人工编程,哪一部分采用机器学习?人工编程是比较传统的做法,由工程师费很大的功夫写出算法规则,让 AI 能够理解各种情景并作出反应。而机器学习则相反,是让机器利用大量的数据,自己“教”自己。

图片来源:Amazon

目前看来,机器学习在处理分类、识别的问题上非常强大,神经网络能够从大量的、杂乱的数据中分析出特定的模式来,比如语音识别。但要“聊天”的话,机器不仅仅要翻译人类语言,还要自己说点什么回去,那么现有的机器学习能力就很不够了。所以传统的人工编程依然占据重要地位,即使 Alexa 和 Siri 也不例外。所有的参赛队伍在抉择上都遇到了困难,如何在两个方法中找到平衡。整个业界也有这样的烦恼。

策略一:人工!

来自捷克科技大学的彼得·马雷克(Petr Marek)曾经用 Reddit 上近300万条帖子和回复来训练一个神经网络,想要赶那些名牌大学的时髦,但是让他们失望的是,聊天机器人的表现“差到可怕”。聊天机器人经常完全不管对话人说的事情,暴走地乱甩话题和段子,还往往前后矛盾。

来自布拉格的捷克科技大学团队。图片来源:Amazon

所以,捷克科技大学团队后来选择回到人工编程的路子上,手动编写各种对话规则。他们创造了10个“话题结构”,包括新闻、体育、电影、音乐等等,把这些领域话题的核心信息和元素输入系统,并可以自如切换。而机器人会用到的词则来自事先写好的模板,只是把各个领域的内容从数据库里抽调出来,再按需求填空。比如“我知道你喜欢_____(对方提到的一本书)。你知道____(书的作者)也写了________(另外一本书)吗?你读了吗?”

这让捷克团队能够更好地控制对话,但是马雷克还是有点担心。这个系统非常依靠对话人的“善意”,他们必须说短句子,而且跟随者聊天机器人的节奏对话。遇到特别不按套路出牌的人类,就比较麻烦了。

策略二:机器学习,统合“人设”

赫瑞瓦特大学团队的导师奥利佛·莱蒙(Oliver Lemon)的团队,则希望能够尽量地使用机器学习的方式。莱蒙对自己团队在“大众评审”中的排名非常在意,想尽一切可能提高自己的评分。但是对于深度学习的神经网络而言,“无目的的闲聊”是很难的,它更擅长处理一些有目的的工作,比如下赢围棋。

来自爱丁堡的赫瑞瓦特大学团队。图片来源:Amazon

他们的解决方式,谷歌的人也在用。那就是首先用一个包含了电影名称、推特和 Reddit 上评价的数据库训练一个神经网络,然后让它能够从无数的段子中训练出特定的回应模式(比如我说《泰坦尼克号》,你说“一刀未剪”),然后他们用一个叫“seq2seq”的技术,训练机器人编写自己的回应,而不是照抄数据库里的词。

但是这也有问题:因为网络上大量的回应都是“嗯”“好”,对话常常无法进行下去;而很多回复也“不合适”,机器人说出来就像小孩学大人说脏话一样搞笑。比如一个用户问“我该卖我的房子吗?”机器人非常粗鲁地回答“快卖了吧你个傻缺。” “我该自杀吗?”“该。”

为了解决这个问题,赫瑞瓦特团队把一个机器人拆分成N个,每个负责一个领域——有的负责读新闻头条,有的负责谈天气,有的吃透维基。最后,团队一个成员编写了规则,来把所有的小机器人统合到一个统一的“人设”下,还给了他最喜欢的歌和最喜欢的颜色之类。

至于让哪个小机器人来回答什么问题,那就靠用户评分了。他们教给这个深度学习的系统如何去评判自己的对话质量,是否切题、是否太过重复、语言上是否合适等,一段时间之后,这个神经网络就能自己知道各个参数的权重了。

策略三:中间路线

华盛顿大学的团队,走了中间路线:一半机器学习,一半人工编程。团队队长名叫方昊,本科毕业于中国邮电大学,是阿尔伯塔大学的计算机硕士,目前正在华盛顿大学读博。他们的机器人有点像方昊,乐观、活力,他们也想让和机器人聊天的用户感到愉快。他们注意到,和其它所有的聊天机器人一样,机器人容易不断地重复负面的东西(因为负面的东西在网络上大量存在且传播广泛)。所以团队把这些东西都过滤掉,而去寻找那些正能量的、更适合谈话的东西。数据源来自 Reddit 的“每日冷知识”(Today I Learned),“澡堂迷思”(Showerthoughts)之类,还能偶尔来点冷笑话。

而人们通常都希望自己被倾听,所以这个团队也人工输入了一些回答,比如“好像你愿意谈论新闻,对不对”,“很高兴你喜欢”,“不好意思,我没听懂”。好的谈话对象通常会在意对话的情绪,所以他们给超过 2000 个对话数据做了情绪标签,教机器识别情绪,然后根据情绪做出合适的反映。

华盛顿大学参赛团队,右一为方昊。图片来源:Ian Allen

最后,捷克科技大学、华盛顿大学以及赫瑞瓦特进入了决赛。

有时,尬聊像一场糟糕的约会

决赛的真人对话者,有的并没有那么“好对付”。比如电视和电台主持人约翰·库尔利(John Curley)

Alexa:“很高兴和你聊天,约翰”。这是赫瑞瓦特的聊天机器人在说话。“告诉我,你喜欢科幻还是奇幻?”

库尔利:“如果我说我两个都不喜欢呢?我问你哈,Alexa,昨天西雅图有一场暴风雨。”

Alexa:“好吧,我们继续。”它忽略了这个不是问题的问题,继续问道:“你是喜欢看电影呢,还是喜欢读书?”

库尔利:“读书。”

Alexa:“喔,是书虫呢。最近读了哪本?”

库尔利:“我刚看了一本书,不过这个标题我不能告诉你,因为里面有个脏词。题目是《关我‘咳咳’事的艺术》。”

Alexa 并不能处理这种信息,但它继续问:“什么书能让你读了又读?”

库尔利忽略了这个问题,换了话题:“Alexa,我告诉你一些事。我能跟你坦白吗?”

不晓得库尔利究竟要说什么,Alexa 机械地转换着话题:“你更喜欢体育还是电子游戏?”

毫无意义的对话,两个裁判摇了摇头。而和其它聊天机器人的对话也有点糟糕。捷克科技大学的机器人问:“你很喜欢看电影吗?”

“我不看,因为我是瞎子。”

“你怎么选电影呢?”

“靠闻。”

库尔利是机器人眼中“不配合的对话者”的典型。他一会儿想要讨论问题,一会儿则说着笑话,不理会机器人的话题,说话的时候夹杂省略和讽刺。简单来讲,他就像人一样说话。没有一个对话能持续四分钟以上。他出来的时候对亚马逊员工说:“这就像一场糟糕的约会。”

但也有比较“友好”的对话者。当地一个电台的主持人,女性,匿名,说话的时候多用短句子,看起来也更想要让对话继续。她和华盛顿大学的机器人聊了足球、普京和圣诞节,和捷克的机器人聊了一本她在读的书。而和赫瑞瓦特的机器人聊了他们喜欢的总统——她喜欢里根,而机器人喜欢乔治·华盛顿。

但即使是这样,最长的对话也持续了不过7分钟。他们聊到了朝鲜局势。“可能有战争(war)的危险。”女主持说。

赫瑞瓦特的 Alexa:“WOR 是一个长波调频电视台,位于纽约。”裁判摁下按钮的速度可谓迅雷不及掩耳。

比起获胜团队,最大的赢家显然是亚马逊自己啦

开篇的那位迈克·乔治能和机器人聊非常久。他想和对面的聊天机器人聊聊机器人本身。而 Alexa 并没有长篇大论地引用维基百科的机器人页面,而是抛了一个笑话:“如果‘蠢朋克(注:Daft Punk,打扮成机器人的双人乐队)’ 真的是两个想要做音乐的机器人怎么办?”

“哈哈,这个好笑。”乔治笑了。

然后他们聊了埃隆·马斯克(特斯拉和 SpaceX 的总裁)。

Alexa:“你知道马斯克本人是电影《谢谢你抽烟》的制作人吗?”

乔治:“我没听说啊。”听起来有点惊讶。他们又有一搭没一搭地聊了下去,话题是书。机器人忽然说:“你知道我在想什么吗?到最后,地球上只会剩下一个人,而且他的名字也不会出现在任何历史书上了。”

“噢,真悲伤。”乔治说。

“抱歉让你伤心了。我们能再继续聊聊书吗?”

双方又愉快地聊了下去。关于《黑暗之塔》,关于书改编电影。机器人向乔治推荐了《华尔街之狼》,聊到了主演马修·麦康利。机器人又调皮了:“你知道我在想什么吗?我觉得有人应该做一个《星际穿越》和《超时空接触》的剪辑,内容是马修·麦康利试图阻止马修·麦康利去太空。”

乔治笑惨了。

他们聊了音乐,体育。十分钟过去了。电影《处刑人》(The Boondock Saints)。十二分钟。圣诞老人,气候变化。十三分钟。乔治让机器人唱了一首歌。十五分钟。又是音乐和电影,健康法案和比尔盖茨。已经十九分钟了,对话还在继续。

这是选择中间路线的华盛顿大学的机器人。他们最后聊了20分钟,直到机器人在健康法案的问题上走入了死胡同。

在最终的颁奖仪式上,亚马逊宣布,华盛顿大学团队赢得了 Alexa 大奖,拿走了50万美元奖金。对话质量评分平均为3.17分,而和几位参与者的平均对话时间长达10分20秒。

华盛顿大学团队获胜,捷克科技大学团队第二,赫瑞瓦特大学团队第三。图片来源:Amazon

这一年的大赛落下了帷幕。不管是亚马逊、Alexa 团队,还是各大人工智能实验室,在大赛中有什么收获呢?至少在这一届比赛里,机器学习和人工编程结合的队伍走到了最后。尽管两种方法用哪一种来训练一个能聊天的智能,各方还有争议,但就像亚马逊 Alexa 项目负责人拉姆所说,两个方式如何能够更好地相结合,或许是未来的努力方向。

但抛开方法论,所有人都同意的一点是,训练能聊天的 AI,大量的数据无疑是基础。亚马逊成功地让整个美国的 Alexa 用户都参与了进来,几个月的时间里,就让亚马逊拿到了超过10万个小时的对话数据,这些数据,全部可以用来训练真正投入商业应用的聊天机器人。用户可能不到一秒钟就点下了“同意使用条款”并毫不知情地邀请 Alexa 来聊天,但现在这些聊天材料全部成为了亚马逊公司的资源。

相比起比赛里捧得大奖而归的团队,最大的赢家,显然是亚马逊自己啦。(编辑:vicko238)

题图来源:Amazon

The End

发布于2018-04-02, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

James Vlahos

WIRED特约作者

pic