757
需用时 01:30
那些不靠谱的星座运程预测
/gkimage/l4/0q/ae/l40qae.png

仔细瞧瞧十二星座运程预测里那些似是而非、模糊不清的话语吧,难道你不会偶尔觉得其实每个星座的预测说得都是一回事吗?一个叫做information is beautiful的网站就将这种怀疑进行到底,搜集了流行的星座预测站点 Yahoo Shine 上诸多相关词条进行分析,试图用数据反驳那些不靠谱的星座预测。

上图是他们的成果之一,你会发现每个星座预测里面的高频词大多是相互覆盖的,而各个星座特有的高频词却只占很小部分(如图上红色字体所示)。这个结果自身是否靠谱呢?下面就来看看这些数据达人们的分析过程吧。

第一步:屏幕抓词

/gkimage/6x/hw/dy/6xhwdy.png

首先当然是从雅虎上获取这些星座预测的词条。复制粘贴是不可取的,于是他们找到Python编程达人Thomas,让他写了个屏幕抓取的脚本,从Yahoo Shine上有效率地获得了22,186个词条并导入到一个巨大的电子表格中。

当然事情进展也不如想象中顺利,像雅虎这样的大网站自然有自己的保护措施——如果同一IP太过频繁访问服务器,那么就会被认为是黑客,他的IP就会被封掉一段时间。当把握好这个“限速”的尺度后,他们很顺利地在12小时获得了所需要的原始数据,共9.5MB。

虽然这些数据不能全部公开,但是 Python脚本 却可以参考,你可以去看看他们编写的测试程序。

第二步:数据过滤

/gkimage/6o/34/24/6o3424.png

由于每个星座的预测都分为很多方面——职业、感情、每日运程等等,由于考虑到特定方面的运程分析会大量提到诸如“work”、“career”、“marriage”等词汇,所以为了方便,他们决定过滤其他分类,只分析关于每日运程的星座预测,共4,380个单词,平均下来就是每个星座365个单词。

第三步:文本分析

他们利用线上工具TagCrowd在这个文本库里寻找高频单词。首先分别找出每个星座词条里出现频率最高的50个单词,再从中挑选出每个星座独有的那些词汇,结果如下图所示。当然他们注意了要去掉那些如“and”、“for”、“is”等无意义的常见单词和“someone”、“really”、“quite”等语义量词。

/gkimage/83/2u/1o/832u1o.png

最终结论就是,在十二星座预测的词汇里,各自之间90%以上是相同的。所以,所谓的星座预测其实说得都差不多,相同的一些高频词汇拼拼凑凑成模糊不清的话语,再加之读者的对号入座就成了各自超准的预测。这帮人公布了他们所掌握的数据和整个分析过程,如果你有兴趣也可以自己分析试试,详细请看 这里

 

来源: informationisbeautiful

The End

发布于2011-01-23, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

Yan

电气工程硕士生

pic