940
需用时 01:52
图灵测试,该更新了?

VeraS/译)科学家表示,数十年来,研究人员一直使用图灵测试来评估机器仿人思考的能力,但是这个针对人工智能的评判标准已经使用了60年之久,目前急需更新换代。为了开发出新的评判标准,科学家团队计划于2015年1月25日至29日,在德克萨斯州奥斯汀市举行的美国人工智能协会(AAAI)会议上,就该问题进行为期一天的研讨。研讨会上将会举行新的“图灵冠军赛(Turing Championship)”,此次竞赛将包括数个有挑战性的任务,用来评估机器在完成人类专属任务时的表现,比如说观看视频然后回答相关问题。

在纽约大学从事语言与音乐研究的心理学家,同时也是这次研讨会的联合主席加里·马库斯(Gary Marcus)表示:“我们的理念是更新图灵测试,以适应新时代标准,这会驱动人工智能研究在现代化的方向上更进一步。”

1950年,英国数学家、密码先驱阿兰·图灵(Alan Turin)提出了图灵测试(Turing Test)的概念,以回答机器是否能够如同人类一般思考这一问题。该测试有很多不同的版本,但是基本格式是一致的,即一系列人类判断者、机器程序与其他人之间的简短对话。如果一个机器程序能够骗过判断者,使其误认为是人类所答,则该程序通过测试。

今年早些时候,一个名叫尤金·古斯特曼的乌克兰聊天机器人(或者说是一个会话程序)上了头条,大众普遍认为它在英国雷丁大学举行的图灵测试中过关了。但是这场胜利充满争议:机器人只要能够骗过30%的评判标准即可通过图灵测试,这个门槛太低了。此外,一些人表示:这个聊天机器人通过扮演一名年仅13岁,且第二外语为英语的男孩戏弄了系统。

通过图灵测试的程序“尤金·古斯特曼”。图片来源:cdn-static.zdnet.com

无论如何,现在有很多科学家相信,原来的图灵测试已经过时,并且过于简单。马库斯表示:“那只是60年前的一个想法,却一直被人们奉若神明,但实际上并非如此。”新的图灵测试会包括更加复杂的挑战,像是由加拿大多伦多大学的计算机科学家赫克托·莱维斯克所建议的“威诺格拉德模式挑战(Winograd Schema Challenge)”。这个挑战要求人工智能回答关于语句理解的一些常识性问题。例如:“这个纪念品无法装在棕色手提箱内,因为它太大了。问:什么太大了?回答0表示纪念品,回答1表示手提箱。”

马库斯的建议是在图灵测试中增加对复杂资料的理解,包括视频、文本、照片和播客。比如,一个计算机程序可能会被要求“观看”一个电视节目或者YouTube视频,然后根据内容来回答问题,像是“为什么俄罗斯侵略了克里米亚?”或者“为什么电视剧《绝命毒师》中,老白打算甩开杰西?”

研讨会组织者已经发布启事,征集关于新图灵测试竞赛的想法,包括竞赛中采用的测试、应当如何评估以及如何管理竞赛。科学家团队表示,他们也接受关于对现有图灵测试的思考的研究论文。(编辑:球藻怪)

文章题图:theconversation.com

The End

发布于2014-08-12, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

Tanya Lewis

科学记者,LiveScience网站作者

pic