807
需用时 01:36
作者是男还是女,软件告诉你
/gkimage/sk/8a/8y/sk8a8y.png

美国新泽西州霍波肯(Hoboken)史蒂文斯理工学院(Stevens Institute of Technology )的程娜(Na Cheng)及同事合作开发了一款在线性别测定软件,可以通过分析文本判断作者的性别。 该软件还在不断升级完善,不久的将来,我们也许可以就用这款软件测出在网上给自己暧昧留言的人是男还是女了。开发小组表示,该软件有助于保护儿童,使他们远离网络上掩盖性别的掠食者的引诱。

软件的使用方法很简单:用户上传一个文本文件,或粘贴一段不少于50词的段落到软件里,文字输入几分钟过后,该程序即做出性别判断:男性,女性,或是中性。判断为中性说明文本中有些文字已经过滤掉可以显示性别的部分。研究人员表示,这种现象在科技文本中尤为常见。

为了编写这套性别识别程序,研究小组查阅了海量路透社新闻档案的署名新闻稿,并参考了已破产的安然( Enron)能源公司的大量电子邮件数据,然后在这些文件中搜集 “ 心理语言(psycho-linguistic)” 因素,包括某些特定词语、标点符号的使用风格等。先前的研究已经确认了这些因素。研究人员总共发现了545个“心理语言” 因素,从中选出了157个具有显著性别特征的因素,包括男性和女性使用标点符号的风格、文章段落长度之间的差异等等。

其他有显著性别特征的语言因素还包括使用可以表明作者情绪或情感的文字,以及带有强烈感情色彩的副词和形容词的使用频率,如女性更常用 “真的”、“ 迷人”、“ 可爱” 等词,男性则会更频繁地用 “我” 这个字,而女性经常用问号。最后,软件运用贝叶斯算法(Bayesian algorithm)将所有因素结合起来,综合考虑后得出作者性别的可能结果。

不过,软件的测定结果并非总是正确的。目前在软件中输入一段文字后,性别判断准确率只有85%,但是,随着使用人数增加,准确率会有所提高。因为软件判断错误时,用户会向系统指出错误,这有助于算法提高准确性。下一个版本的软件将对Twitter和Facebook上更新的内容进行分析。

英国牛津互联网学院(Oxford Internet Institute )的社交网络技术专家伯尼·霍根(Bernie Hogan)认为性别鉴定技术十分有用。他表示能够提供一些额外的关于作者性别的线索总归是件好事,有益无害。霍根还表示,判断结果为 “中性” 时,也可能表明有人正在试图用刻意使用违背本人性别的方式发表言论。而软件也许能就此提供强有力的证据。


刊物:New Scientist 网站,2011年6月17日
导读者:摇摇晃晃小姐
原文:请看这里
图片来源:ricklatona.com

(果壳环球科技观光团微博 http://t.sina.com.cn/guokrdigest

The End

发布于2011-06-22, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

摇摇晃晃小姐

食品科学与工程专业,果壳译者

pic