1199
需用时 02:23
一个词能蕴含多少信息?由它的长度说了算
/gkimage/yr/5x/l3/yr5xl3.png

多年以来,语言学中有一个主导性的理论,即词的长度与其使用的频率成反比。据说这是为了使语言的使用更为高效。

比如说,根据布朗语料库的统计,the,of和and在美式英语中使用频率最高,而这三个词只有两个或三个字母构成,这一统计很好地证明了上述理论。即使没有这一统计,我们也能理解这个理论。试想一下,如果the由十几个字母构成,那一句话该有多长啊!在这种情况下,语言的使用一定是低效的。

但是,麻省理工学院一群研究认知科学的科学家们根据Google语料库提出了一个新的理论——词的长度其实反映的是这个词所蕴含的信息量。

更多字母,更多信息量

尽管从直觉上来说,高频率的单词往往意味着更少的字母,但麻省理工学院脑与认知科学系的博士生Steven Piantadosi表示,这一理论并没有考虑到词与词之间的关联性。

许多词,包括上文中所提及的三大高频词the,of和and与其他词组合时,词序是可以预测的。越短的词并不一定就是越高频的,由于它们本身所蕴含的信息量非常少,因此往往和其他词组合在一起传递信息。

研究者发现,将长度相近的单词组合在一起可以更高效、更顺畅地传递语言的信息流。并且,无论是数个短词的组合,还是单个的长词,语言都是以一致的比率来传递信息的,也就是说总的信息量与总的字母数成一定的比例。

Google语料库中找答案

该项研究基于11种欧洲语言,研究了大量从Google中获取的语料。但网上获取的语料往往有个问题,那就是网络语言有其独有的语言模式和词序,而且字母组成的不一定是词,比如www。因此,研究者们还利用了Open Subtitles中的语料,Open Subtitles是一个电影字幕数据库,这大大拓展了该研究所需的语料。

谈及为何要将Open Subtitles作为语料库之一,Piantadosi表示,电影中的语言是一种典型的自然语言,因此我们吸收在电影中使用的高频单词,并将其作为Google语料库的补充。

如何判断一个词到底蕴含了多少信息量呢?

首先,我们要为“信息”下一个定义。其实,对于一个概念,每个人、每部字典、每本教科书所下的定义都是不同的。在此项研究中,麻省理工学院的研究者们为“信息”所下的定义是: “信息”存在于与词语中的可预测性形成的相反关系之中。(看上去很绕吧,其实很简单,只是专家们习惯把很简单的东西说得很复杂……)

单词本身往往蕴含着一定的信息,而单词与单词之间的组合也会传递一定的信息,有些信息是可以预测的,比如句子中间拿掉一个词,你还能填进去,就像英语考试中常见的完形填空;而有些信息是不能预测的,根据定义,这些不能预测的部分就是所谓的“信息”。

举个例子来说,"you are what you eat"中的eat所蕴含的信息就比"you are contagious"中的contagious要少。因为在第一句句子中,我们至少可以知道,第二个"you"后面所跟的一定是一个动词,但在第二句中,"are"后面可以跟名词、形容词等。

同时研究者们也承认,现有的语料中有很多可以证明他们所提出的假说,但也有一些反例。比如,mind和organization的长度相差甚远,但是它们使用的频率几乎是相等的。而menu和selection的长度也有所差别,但二者所蕴含的信息量却大致相同。

研究者表示,10%的单词长度变化可归因于单词本身所含的信息量,也就是说,10%的单词其长度与信息量成正比。尽管这一数字并不高,但相比较之下,大约只有3%的单词长度变化会导致其出现频率发生变化。而对英语而言,9%的单词其长度与信息量有关,而只有1%的单词其长度与出现频率有关。

这项研究上个月已在美国国家科学院院刊上发表。目前,Piantadosi正在运用相似的技术研究歧义在语言中所扮演的角色。


来源: gizmag

The End

发布于2011-02-19, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

Catherine

果壳作者

pic