3899
需用时 07:47
知识图谱:让搜索通往答案本身
这十几年来,随着以谷歌为代表的互联网搜索巨头的出现,“搜索”这个概念已经发生了翻天覆地的变化,被改变的不仅仅是困惑时寻找答案的方式,连“迷路”等状况也渐渐地淡出了人们的生活。思考的方式在变,与朋友联系的方式在变,获取信息的方式在变,甚至于搜索的方式也在改变——用语言向计算机提问,不再需要输入框。
 
搜索的未来会是怎样?身价亿万的谷歌创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)2004年曾预言,“搜索会成为人们大脑的一种活动,当你在想到一件不怎么清楚的事,它便会自动出现在你的脑海里”;“谷歌的目的是用全世界的信息扩张人类的脑容量。目前,你需要在搜索框内输入字眼,但未来事情肯定会更简单。你可以和设备对话,计算机会自动收集周围的信息……”;佩奇更是坚信,“最终,计算机会被植入你的大脑,只要想到,答案就会出现”。
 
9年之后,布林规划的“未来”已经逐步实现,苹果和谷歌都推出了语音搜索服务,而Google Now可以在你发问之前告诉你目的地的天气如何、喜欢的球队战况怎样,诸如此类的信息。而佩奇的大脑植入计划还仍旧遥远,不过谷歌正在研发的“谷歌眼镜”可以在使用者眼睛近前方外侧投射一个恒定的屏幕影像,操控也是通过语音进行。搜索,已经越来越接近于思考。(※此处已修改)
 
搜索的概念日新月异,但其本质却始终如一——满足你对信息的需求。在这一切的背后,是写代码的程序员孜孜不倦的努力。提起程序员,就不得不提到阿米特·辛格尔(Amit Singhal)。44岁的辛格尔是Google搜索部门的带头人,十几年来他肩负着编写及维护谷歌搜索算法的大任,正是他负责的200多个独立的编码方程式,让我们在迷惑时能从Google得到答案。
 

谷歌搜索的掌门人

阿米特·辛格出生于印度北部的一个小村庄,在8岁后他的家里才添置了第一块显示屏,那是一台黑白电视机。“当时的电视只有两个频道,一个是针对于本地农民播放的农业频道,另一个不断地播放美国电视剧,比如星际迷航(Star Trek)。”“我看了非常多遍星际迷航,每一集我都烂记于心”,回忆这段岁月时辛格尔发出了爽朗的笑声,“我认为是这部电视剧改变了我的世界观。在星球间穿行、能回答任何问题的电脑,这些概念深深地植入我的心底。唯一没想到的是,这些东西竟然会在我的有生之年出现。”
 
辛格尔认为自己是个幸运的人,总是在正确的时间被引领向正确的事情。1991年他在美国本科毕业,转入学习计算机搜索,这一年起万维网(World Wide Web)开始连接世界。在拿到博士学位后,辛格尔加入AT&T的贝尔实验室(Bell laboratories)。2000年起,他加入谷歌。这一切,仿佛冥冥之中有一双手在指引他前进的方向。
 
接受采访时,辛格尔从口袋中掏出自己的安卓手机,对着手机问道:“伦敦有多少人口?”手机答:“2011年的数据显示,伦敦人口为817.4万。”他接着问:“贾斯汀·比伯(Justin Bieber)身高几何?”手机答:“贾斯汀·比伯身高5英尺7英寸。”声音落下,辛格尔露出了孩子般的笑容:“如果我二十年前睡着了今天才起床,看到这一切后,我肯定会激动地问:‘快告诉我,去哪里搭乘星际航班?’”
 
辛格尔进而表示,他们现在取得的成果都还在初级阶段,但搜索已经站在了奇幻未来的大门口。在经过了十几年的发展后,这些冷冰冰的计算机开始获得人性化的能力,“开始学习如何理解真实社会中的人和事”。
 
在一些看似简单的场景背后,蕴含着极其丰富的信息,就比如说手机回答了贾斯汀·比伯的身高。手机得明白,贾斯汀·比伯是一个人,还得明白身高一词代表着怎样的含义。“计算机已经能够跨越语义学上的障碍,但这远远不够。在简单的语句背后是一大堆无结构的文本信息,只有明白了究竟问得是什么问题,才能给出适合的答案。”
 
现在,谷歌似乎成为了知识的代名词。它虽然不能回答你的问题,但它可以帮助你找到问题的答案。从某些方面看,随着“知识图谱”(Knowledge Graph)的出现,谷歌的定位也在改变——它提供的不仅是通向答案的链接,还有答案本身。
 

知识图谱:梳理人与信息的联系

知识图谱是一个收集了5亿余个最常被搜索的人、地、事的数据库。对于每一个词条,谷歌都提供了大量而全面的信息——不是简单的词串或单薄的数据片段。假设你通过知识图谱查询唐宁街10号(10 Downing Street),谷歌给出的答案并不是“这是一个地名”,他会像一个普通人一样,把相关的信息对你娓娓道来,这些相关信息都是其他用户经常查询的。

5 年前,当科技类杂志《连线》(Wired)创始人约翰·巴特利(John Battelle)创作著作《搜》(The Search:How Google and Its Rivals Rewrote the Rules of Business andTransformed Our Culture)时,他引用了艾萨克·阿西莫夫(Isaac Asimov)在科幻小说中描述的场景:“所有被收集的信息都来到一个终点,世间万物的所有信息都汇聚于此。但是,这些信息之间的关系还没有被完全梳理清楚,这项工程要耗费无穷无尽的时间。”

信息的广度和精度

在某种角度上,谷歌对知识图谱的尝试便是这一无穷无尽的工程的开端。对于这间公司,它已经近乎达成“世间万物的所有信息都汇聚于此”,它管理的信息不仅是互联网上一切网页上书写着的内容,更有每一条街、每一道路上的照片,有数不尽的实体书内容,有你我观看的每一个网络视频(最大的视频分享网站Youtube为谷歌所有)。近年来,谷歌又在做新的尝试,它想记录下世间各色各样的人音,为了收集世间一切的语言或方言,以打造出新一代的翻译/人声阅读功能。同时,谷歌还在人脸识别领域进行探索。最关键的是,凭借搜索记录等常被大肆批评讨论是否侵犯隐私的个人信息搜集,谷歌足够了解每个用户的私人生活。

一切被收集的信息不仅可用于精准契合用户需求提供信息支持,更能帮助谷歌去思考如何给机器培养思维。这十几年来,辛格尔和他的团队一直在探索,如何通过文本和超链接为搜索用户提供更为准确的信息。同时,他们也慢慢掌握了方法,“观察这个世界是如何与信息产生互动,并开始做一些其他的东西,比如让计算机明白人们输入的问题是什么意思”。

谷歌是如何向用户学习的呢?其实很简单,分析用户在搜索页面上停留的时间。如果时间长,说明用户找到了满意的答案,他们不需要点开其他链接,或是更改搜索词条。如果时间短,这就说明搜索页面没有做到尽善尽美,得算是一个小的失败。每个人都认为,我们向谷歌学习了很多。但事实上,受益于源源不断的上十亿次分析,谷歌从你我身上学到了更多东西。

理解用户的需求

早在2002年,辛格尔就基于路德维希·维特根斯坦(Ludwig Wittgenstein)的理论,引进了一套关于上下文如何影响单词词义的升级理论。当词义模糊的单词被搜索时,谷歌跨越单词本身去查询相关的词汇。比如热狗,谷歌会通过相关词“芥末”或“球赛”明白它是一种快餐类食物,而不是一只很热的狗。辛格尔解释说,“正是热狗与很热的狗之间的细微差别,定义了人工智能。”

既然如此,是不是人们用谷歌用得越多,谷歌就越能提供精准的回答呢?对于这个假设,辛格尔发出一声叹息:“事实不是如此。当搜索引擎给出的信息越精准,用户的提问就越粗糙,搜索引擎的进步就受到了阻碍。”面对着大量的语法错误或是拼写错误,工程师要耗费大量的精力去调试系统,目的只有一个,做出《星际迷航》中那样的计算机,即便你不知如何表述自己的问题,答案仍会出现在你的脑海中。“最终我们希望搜索成为大脑思考进程中自然的一环,我们竭尽全力消除问题与答案之间的阻碍。”这一切,恰是对于“植入大脑的计算机”概念的响应。

知识图谱是一个强有力的尝试,它的出现是随着谷歌收购 Metaweb 公司开始的。辛格尔回忆道,“我们发现了这家叫做Metaweb 的公司,他们拥有让计算机与人类和谐交互的办法,他们正尝试着把真实世界的人与物投射到计算机内存之中。他们的技术看起来很靠谱,所以我们收购了Metaweb。”

在那时,Metaweb 存储了1200万个参照点(reference points)。在两年后,有了谷歌的推动,这个规模被扩张至5.7亿,并在这些参照点之间建立了180亿个连接。这是一个怎样的概念呢?“百科全书”维基百科内仅收录了约400万个词条。

艾米丽·莫克斯利(Emily Moxley)是谷歌知识图谱的负责人,她在接受记者采访时表示,他们花了极大的功夫,才让这个搜索引擎能够区分英式足球和美式足球(即橄榄球)。“比如说在日本,我们的分析结果显示,用户对于影星的血型很感兴趣,于是我们在知识图谱内便添加了这部分内容。”谷歌针对日本市场还花费了另一些功夫。他们发现日本用户在搜索相扑时难以得到满意的答案,“我认为我们至少得能够回答一些较有深度的相关问题”,艾米丽如是说。怎样才是“较有深度”呢?艾米丽的答案是,“至少要能回答最常见的那几千万个问题。”

知识的精度与广度并不是谷歌唯一的追求,辛格尔希望搜索的结果能够与用户的需求相一致。“当你搜索马丁·路德·金(Martin Luther King)那篇著名的演讲《我有一个梦想》时,”辛格尔说:“你可能想找演讲文本,可能想找相关图片,但我们猜,你真正想要到的是当时现场的视频,所以这段视频出现在知识图谱的最上方。”这就是知识图谱,谷歌希望它不仅能提供信息,还要能理解人的需求。

 

不少人质疑,谷歌每年的营收超过 9 成来自于广告收入,而广告收入的基础恰恰是他们所掌握的信息。不过,如果你向任何一位谷歌员工提起这个话题,他们都会自然地给出类似回应:“你为什么不相信我们呢?”谷歌也时时因为自己的角色陷入法律纠纷中,比如欧盟起诉谷歌在搜索结果中偏袒自己的产品服务,违反了反垄断的相关法规。

对于这些问题,辛格尔的回应是——我们是搞搜索的人,我就是想建立一个强大的搜索引擎,实现自己的价值,仅此而已。辛格尔进一步说:“所有的信息都是经过授权的。”对于谷歌拥有的信息的意义,他举了自己最喜欢的例子以作说明——每年,辛格尔都要回到自己出生的那个印度小村庄,看看信息化如何影响了这里的人们,而辛格尔的父亲几乎每年都会到访加利福尼亚,“我的父亲是一位退休公务员,他以前每次来这都很担心,因为他带回家的礼品得经过海关的复杂检验。印度海关对于这一块的规定纠结且善变,要搞懂最新的规定十分非常让人头疼。”

“我仍记得在10年前,我教父亲使用谷歌搜索‘印度海关通关条例’,黑纸白字的搜索结果,全是最新版的。父亲会将其打印出来塞进胸前口袋,鼓囊囊的一坨。当父亲回家时他会打电话向我描述,自己在通关时是怎样拿出那张纸,向海关工作人员说明,自己给孩孙带的礼物都符合了的规定。海关工作人员之后对他说,‘欢迎回家,辛格尔先生!’”

正如辛格尔父亲的经历,便捷的搜索简化了我们的生活,辛格尔还在继续努力让这种便捷继续前进。如今知识图谱会显示出它认为你最需要的信息,但未来它可能可以模拟我们的思维过程。辛格尔如今醉心于对行为心理学的研究,他成为了心理学家丹尼尔·卡尼曼(Daniel Kahneman)的拥趸。“我喜欢他对于人类面对选择和决定时心态的细致研究。比如当有人拿出32条巧克力要你选择时,你为什么想逃;为什么当那人拿出只一只巧克力让你无从选择时,你会感到心满意足。”

辛格尔与谷歌从未停止自己对于搜索的探索。这样发展下去,信息与搜索的未来会是何种模样? 对于这个问题,辛格尔爽朗地答道:“具体我还不确定……”让你毫不怀疑他、还有谷歌这家公司一贯所奉行的,很快就会知晓。

 

更正说明:文章发布之初,第三自然段中对于谷歌眼镜(Google Glass)的功能表述有误,而且没有准确传达作者对佩奇将计算机植入大脑这一预测的看法。经读者_Taget_指出后修改,特此说明。(2013-1-26)

 

编译自:《卫报》,Google and the future of search: Amit Singhal and the Knowledge Graph
文章图片:来自网络

The End

发布于2013-01-25, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

果壳包果核

果壳译者

pic