
现在的历史学家需要利用细微零星的证据,将考古对象的生活细节拼凑出来。未来的考古学家大概会很有压力吧,他们将要面临研究海量数字遗产的问题。如今,数字产品像洪水般泛滥,考古学家要采用什么方法将它们研究透彻?
如今,人们几乎每天都在制造大量数据,多到处理不过来——想想你在假期拍的照片吧,你从来抽不出时间把它们整理到相册里。我们的硬盘里塞满了乱七八糟的东西;网络缺乏结构,外加各种匿名和化名的使用,都会对未来历史学家探究互联网的世界造成重重困难。
现在的网页由HTML、MP3、JPEG等文件构成,这些文件可能在很长一段时间内都具有可读性。但是,由于数据常常被复制、编辑、评论和修改,因此能够分辨出文件的原始出处和真实性将堪称一项伟大的壮举。
为了保护文件,我们常常给文件做备份,将文档以邮件的形式发送给自己,或将图片传至网上等等。人们也会互相传送文件。这些做法都会令文件发生变化,不过大多数变化非常小,通常人们不会有所察觉。
这对互联网考古学家来说却是喜忧参半的。一方面,互联网的变化性为我们探究信息的传播方式提供了有价值的思路。另一方面, 由于存在变化性,我们若想找出文件的源头变得困难重重,尝试过追踪网络迷因(Internet meme,又称网络爆红,是一种在网络上由一人向他人传播的文化现象)源点的人都对这一点深有体会。
模糊过滤法
一种筛选文件源的强力方法是 “离散法”:是一种将大量数据转换为一个较小数值(即离散值)的数学方法,便于比较文件。但是,即使原始数据发生了微小的改变,离散值将得出截然不同的结果,从而难以分辨文件副本之间的联系。
将每个文件分割成一些片段,每个片段有其独立的离散值,如果两个文件的绝大部分由相同的片段组成,那么它们很可能相互关联。
这些“模糊的离散值”可以用于找出近似的文件副本,或识别出不完整的或早期的文件,——传记作家会发现这些信息很有帮助。
但是这种方法并不完善,只能模糊地找出文件的相似之处,而且只适用于一部分文件类型。举例来说,将一张图片轻微压缩,外观上不会受到明显影响,但是图片数据的离散值会显著改变。
文字类文件
那网络上的文本要如何研究?人们在互联网上四处匿名评论、更新状态、发布博客等等,未来历史学家没准想追本溯源找出发布文字的作者呢。
有一个办法可以找出作者,即跟踪他们的特色“书写痕迹”:惯用词汇啦,句子长度啦,特别爱用的单词和标点符号啦,甚至是习惯性的语法错误等等。
但是,要使用这个方法一般需要大量的文本。法国国家计算和自动化研究所设计了一个系统,该系统通过分析用户名中包含的字母或文字,将同一个人在网络上使用的不同化名联系起来,
你也可以在 I Write Like 网站尝试一下这个方法的简化版。 I Write Like 网站可以告诉你,你在网上写的那些“永恒的”文字和哪个著名作家的风格最相似。但是, I Write Like网站使用的这种搜索方法也存在问题,比如该网站将某些作家的作品作为搜索的参考依据,那么输入这些作家的文字,网站就无法识别。
当然,更加精良的算法可能会解决这一问题。但是随着时间变化,我们的“书写痕迹”也会改变,这样一来要确定作者就更加困难了。(文字的变化对文学考据颇有启发:有人就把阿加莎·克里斯蒂后期作品的文本分析结果用来当做她患有老年痴呆的证据。)
找寻意义
分析“书写痕迹”只限于分析文本的文字结构。语意分析则更进一步,它能够识别文字中意义相关联的信息。这样一来,未来的研究人员不必搜罗出你更新过的每一条状态,就可以分析出你是个怎样的人。
麻省理工学院的亚伦·金曼(Aaron Zinman)正在开发一个名为“Defuse”的新系统。Defuse能根据网络用户使用的语言类型以及他们在网络社区里的行为方式,用不同颜色的方块来标注每个用户。金曼说:“我们尝试建立一种‘数码实体’,这样一来,我们在网上也能跟现实中一样,只要看一眼就能判断出对方大致是个怎样的人。”
但是,金曼指出,不能过于机械地理解该系统对人的分析。他表示:“人类本来就非常复杂,意识到这一点相当重要。一个伟人的传记可能长达数百页。但是,通过特别的图像或者事物记录,传记还是将其一生浓缩了。要把一个人一生有关的数据进行细分,有上亿种方法,每一种分法千差万别。”
金曼早期的计划——Personas(人肉啊),更清楚地论述了这一观点。Personas号称通过搜索“别有意味”的信息就可以揭示网络对你的看法。
现实的杂乱无章
我有次对自己进行“人肉”搜索时,搜出了“管理、教育、新闻”等信息,我认为这些信息组合起来的更像一张我的模糊的传真照片,而不是关于我本人的详细描述。这正是问题所在,金曼打算用Personas证明:我们如今用机器分析人类复杂性,效果有多不堪。
英国牛津大学网络学院的维克托·梅尔-斯伯格(Viktor Mayer-Schönberger)也发出了警告:“数码存储只能采集数字信息,我们越是依赖它,就越想赋予它一些它本不具备的属性,例如真实性和综合性。”
因此,即使在未来半个世纪,各种数字产品会得到显著改进,但它们依然会被我们留下的记录所限制。各种新的记录层出不穷,比如人类足迹的记录啦,甚至心跳次数的记录啦,等等等等。2061年的历史学家也许仍然捉摸不透现在的我们到底是个什么模样——至少他们捉摸不透我们是如何看待自己的。
现在的考古就嫌找到的东西少,挖出来的都是宝。未来的考古翻出来的信息肯定多,可考古学家还是得在“山”里挖。历史啊。
刊物: | NewScientist网站 5月3日 |
---|---|
导读者: | 摇摇晃晃小姐 |
原文: | 请看这里 |
图片来源: | NewScientist网站 |
(果壳环球科技观光团微博 http://t.sina.com.cn/guokrdigest )