两个“数据流氓”如何掀翻学术大佬| 果壳科技有意思

李子李子短信
科技
前沿
社会

5265字
需用时 10:31

两个“数据流氓”如何掀翻学术大佬

李子李子短信

问：什么样的小学生一顿饭能吃60根胡萝卜？

答：参加康奈尔大学食品实验的。

作为笑话这可能相当冷场，不过詹姆斯·希瑟尔斯（James Heathers）算出这个结果的时候，想必是乐不可支。

在他面前的是一篇来自康奈尔食品实验室的论文，题目叫做“吸引人的食物名字能增加小学生的蔬菜摄入”。论文里发现，如果把某种十分惹人厌的蔬菜命名为“X射线眼胡萝卜”，小孩子就会大吃特吃，比“今日美食”好得多。

这……简直是典范级的搞笑诺奖研究呀！

能搞出这类研究的当然不是泛泛之辈。论文第一作者名叫布莱恩·万辛克（Brian Wansink），过去十几年里行为心理学领域最火的研究者之一。他和他领导的康奈尔大学食物与品牌实验室（Cornell Food and Brand Lab）发布的一些研究，很多人也都听说过：盘子越大会让人吃得越多，号称健康的餐馆会让人低估自己的进食量，等等。万辛克不仅在学术界备受推崇，还经常在主流媒体露面，写畅销书，教人们如何健康饮食、轻松减肥。

布莱恩·万辛克。图片来源：cornellsun.com

这篇论文本身论述清晰、过程合理，实验结果数据显著、证据确凿，配上康奈尔的金字招牌，让人挑不出毛病。然而，它却让希瑟尔斯直觉起疑。他立刻知道应该从哪下手——他告诉我，这实在是 “再明显不过了” ：未公布的原始数据。

不用他说，这我也知道啊。问题不就是原始数据没公布别人只能干瞪眼吗？

但希瑟尔斯自有绝招：一个他自己编写的特殊软件，能够利用统计学原理，从发表的结果重建出原数据的可能面貌。只消几分钟，他就从这篇胡萝卜论文里得到了500组模拟。结果呢？要得到论文里的平均值、方差和样本量，最大样本至少会有55，很可能在60以上。

换句话说，实验中的某个孩子需要吃掉60个胡萝卜，才能产生与实验数据相匹配的结果！

一不做二不休，希瑟尔斯干脆买了一袋只有小指头大小的“婴儿胡萝卜”（baby carrot），数了60个出来放在电子秤上，足足471克。

“显然，至少有一个实验对象是一匹马。”他在博客里一本正经地写道。

手撕各路论文，全凭一个突发奇想的小工具

这番闹剧还要追溯到2017年2月，那时希瑟尔斯的学术网友尼克·布朗（Nick Brown）在博客上发了一篇文章，指出万辛克某几篇论文的数据可能有问题。希瑟尔斯于是拿出了这个绝招软件，名为“精灵”。

精灵全称是“基于迭代技术的样本参数重构”（SPRITE ，Sample Parameter Reconstruction via Iterative Techniques），名称不明觉厉，实际上原理非常简单暴力。他用胡萝卜举例，介绍了这个工具的原理。

比如，有10个人参加了实验，平均每个人吃了3个胡萝卜，样本量为10，标准差为0，可能的数据组合只能有1种，那就是10人每人3个。若平均值不变，标准差变成0.32，那么可能的结果则是其中两个人一个吃了4个、一个吃了2个。精灵做的事情，就是根据给定的统计结果，反向算出符合该结果的所有原数据组合，以及每个值可能出现的概率。当抽象的统计指标化身为具体的数据组合，问题就很容易看出来了——就像万辛克的胡萝卜文章，一顿饭60个胡萝卜，显然意味着数据有问题。

SPRITE 的原理——对统计数据的重建。图片来源：twitter@jamesheathers

这个解决问题的思路诞生于更早的2014年。那时，法国南布列塔尼大学的心理学家尼古拉·吉根（Nicolas Guéguen）在期刊《心理学报告》上发了一篇论文，研究了女性几种不同的发型对男性心理的影响，结果显示，扎马尾的女性更容易让陌生男性伸出援手。

当希瑟尔斯看到布朗发给他的这个研究的时候，不禁笑出了声。不仅是因为题目——这个教授还曾经发表过类似于“高跟鞋能让女人更有性吸引力”和“金发服务员能获得更多小费”等标题颇为小报风的研究——而是这些研究本身就有众多可疑之处。其中一个研究里，研究者假装路人，在街上随机拦下18-25岁的女性，来研究特定条件下要电话号码的成功率。然而年龄这个变量怎么控制的？女孩们会在礼貌拒绝陌生人要电话的同时，还礼貌地告诉他们自己的年龄以供统计？

但这些研究方法的问题容易被搪塞过去，论文里的最终数据才是实锤。两人于是开发了一个简单的测试，想从平均数上找突破。

在心理学小样本实验中，平均数一定是几个整数加在一起除以样本数的商。你不可能问一个女性2.5次电话；5个人吃整数个的蛋糕，吃不出来平均每人2.1个。他们发现，吉根的一些研究里的平均数在数学上是“不可能”的；而另一些数值看上去又过于规整。譬如马尾辫这项研究中，若想使最终结果成立，那么每个分值必须恰好出现了6、12、18、24次，这种情况发生在现实中的可能性是170万分之一。

而“精灵”就是这个想法的升级版产物。他们靠自己发明的简单粗暴小工具，为揭发有问题论文开辟了全新的思路。有人揶揄他们为“数据警察”，希瑟尔斯却自嘲自己为“数据流氓”（data thug）——无组织无纪律的散兵游勇。警察是官方的、有权力的，然而他们并没有任何资金支持，这件事也和任何官方机构无关。现年35岁的希瑟尔斯在美国波士顿东北大学（Northeastern University）计算行为科学实验室做博后，专攻生理学，为论文找 bug 纯属业余事业；而布朗虽然已经57岁，却也仅仅是荷兰格罗宁根大学（University of Groningen）的一个心理学博士生而已。

“没有警察，那流氓就要出手了。”布朗说。透过他的邮件，我仿佛能看到他脸上汉弗莱爵士一般的微笑。

詹姆斯·希瑟尔斯。图片来源: jamesheathers.com

流氓会武术，大佬究竟挡不挡得住？

学术流氓的路线很适合希瑟尔斯的性格。从研究生时开始，他便不断地发现各种论文中的问题，想要找到数据背后的全貌。“全靠直觉摸索，就像在黑暗的屋子里找灯的开关”。他尝试过将自己的疑问发给作者或者期刊编辑，大部分杳无音信，有的时候则被忠告说 “最好忘了这茬”。

他自己完全不在乎会冒犯到谁，也从来不看学术大佬脸色，是个“会在晚宴上公然放屁的家伙”。“你是不是作弊，我们不感兴趣。我们只对你犯的错误感兴趣。”希瑟尔斯带着平静而诚恳的语气对我解释，“当然，也有可能是我们错了，我们就只是纯好奇而已。”

然而，对于他们俩这样的学术界“边缘人士”而言，跟有问题的研究较真的过程十分漫长，甚至有时候是没有结果的。

在发现了尼古拉·吉根多篇论文的问题之后，2015年，希瑟尔斯和布朗向相应期刊以及法国心理学会提出了问询。然而，等待着他们的却是漫长的推诿。法国心理学会承诺对作者进行调查，并报送给了法国大学委员会，但冗长的答复只是在强调很多论文是他的研究生的作品，几乎就是“临时工背锅”的翻版；而关于数据的疑问，一个都没有正面回答，更没有提供他们想看到的原始数据。

两年时间过去，尽管他们态度一直平和，有大量合理疑问，甚至一一在论文中标出，但却总是碰一鼻子灰。

“在学术界，并没有一个有效的裁决机构。”布朗在接受媒体采访时说。期刊可以让作者修改或撤稿，官方机构也可能会介入学术不端的调查，但如果作者不配合，进展就会变得十分缓慢，甚至无法推进。所有人都不想走到撤稿那一步——这几乎意味着对研究的全盘否定。

同样的事情，布朗并不是第一次经历。他在攻读心理学硕士期间，发现一篇备受推崇的“积极心理学”论文实在是难以理解。作者是领域大佬芭芭拉·弗雷德里克森（Barbara Fredrickson）和马西奥·洛萨达（Marcial Losada），论文里使用了一个流体力学的数学模型来描述“情绪的流动”，让他十分错愕。布朗找到了心理学家哈里斯·弗里德曼（Harris Friedman）和数学家阿兰·索卡尔（Alan Sokal）合作，历经波折，发表了一篇论文指出了弗雷德里克森论文中的问题。然而，弗雷德里克森片汤话一般的回应却让三人大失所望。她表示，论文里的数学可能有错，但理论依然是站得住脚的。

布朗说，整个学术圈都时不时能“闻见瞎说的味道”（smell of bullshit），然而他却无能为力。

如果作者死不认错，难道就只能不了了之吗？

“撤稿观察”（Retraction Watch）的创始人之一、前科学记者伊万·欧朗斯基（Ivan Oransky）对此也已司空见惯。“撤稿观察”是一个记录学术界撤稿的博客和数据库，创立于2012年。在他们关注过的数千起撤稿事件中，大约有2/3是因为各种学术不端，其中抄袭占了15%左右。

欧朗斯基说，撤稿的理由可谓是花样翻新，不断挑战着他的想象力。比如同行评议造假——用虚假的邮件地址杜撰专家的评审意见——这个在2012年以前还相当罕见的撤稿理由，到现在已经占了整个数据库的6~7%，大约600多篇。去年施普林格-自然出版集团（最大的学术出版商之一）撤稿了107篇此类论文，其中大部分来自中国。

因为同行评议造假，斯普林格撤下了大量已发表在旗下期刊的论文。图片来源：cgtn.com

撤稿对他而言，是关注学术圈的一个窗口——错误是怎么产生的，整个科学共同体如何修改它们的错误，修改的过程经历了怎样的波折。有的拉锯战持续了好几年，却依旧囿于证据缺乏或者各方不配合而没有定论，也无法以撤稿或者“撤诉”而告终。

毕竟，学术圈子也并不是什么超脱世俗之地。布朗坦承，当他开始读博、做起自己的独立研究之后，甚至能够理解弗雷德里克森面对质疑时候的心境。“人们为自己的成果投入了大量的资源，情感上的、智力上的，还有财政上的。除非真的到迫不得已，否则很难改变自己的观点。”

学者们想要晋升、出名，想要挤进稀缺的终身教职岗位，而这一切的关键就是发论文。我和布朗聊到中国的研究者近年来突飞猛进的发文节奏，布朗表示担忧。“我听说在中国发一篇《自然》或者《科学》，会有上万美金的奖励。在西方学术界，只是名誉激励，就已经带来这么多糟糕的事情……用钱来砸可能是更坏的主意。”

但关键并不在于追名逐利本身，而是学术圈几乎靠着信任在运作，规则薄弱，仿佛科学家们还是18世纪的贵族绅士，正直、不会作假，追求的是真理而不是名誉，指出错误之后会改正……虽然一旦发现学术不端会身败名裂，然而比起巨大的诱惑，随意犯错、或者错了不改的成本也未免太低。虽然撤稿的论文越来越多，但还是有大量的论文停留在内部扯皮阶段，作者不认错，官方也不采取措施，就这么一直拖下去——就像吉根的马尾辫论文一样。

布朗和希瑟尔斯不信这个邪。身为新时代的科学家，他们还有另一条渠道。

“开放科学”：像谈论其他问题一样谈论科学

2017年，布朗和希瑟尔斯写了一系列博客文章，面向整个互联网详尽披露了吉根研究的数据纰漏，介绍了他们的测试方法，引来了学术圈的大量讨论。希瑟尔斯在 Medium 上的文章一周内就有了上万阅读，甚至引起了科技媒体的注意——这是一个好的开始。

实际上，拜互联网所赐，“发表后的学术讨论”（post-publication discussion）近年来已经开始形成规模。在欧朗斯基眼中，官方之外“讨论论文—揭发错误—调查错误—报道错误”的流程，已经形成了一个生态系统。希瑟尔斯和布朗这样的人担任揭发者，而“撤稿观察”则扮演着记录的角色。在 PubPeer 这类学术平台上的开放、匿名讨论，则为这一切提供了基础。

因为吉根的事情，两人在圈里有了一点名声，他们时不时会收到各种人给他们发来的邮件，让他们“帮忙看看”某篇可疑论文在数据上有没有问题。“一旦你公开谈论这些问题，人们便会主动把类似的事儿捅给你。它就像肿瘤一样扩散，无处不在。”希瑟尔斯在接受《科学》杂志的采访时这样形容道。

对于揭发者的角色，希瑟尔斯和布朗也有自己的界定。他们并不认为他们是在“打假”或者揭发学术不端。数据上的小问题可能是一时疏忽的错误，也有可能是巨大问题的冰山一角，而他们只负责当说大实话的“流氓”。布朗对我说：“我们只检查数据的‘不一致’（inconsistency），而把推测为什么的事情交给别人。”当他们发现问题之后，发邮件给原作者询问的言辞也非常温和。邮件通常这样开头：“嗨，我们发现你的论文中有个小问题，你来看看？”这样的低姿态也减小了他们遇到的阻力。

“现有的同行评议已经有些过时了。”布朗在接受 Ars Technica 的采访时说。同行评议所能覆盖的范围是非常有限的，而现今的论文往往涉及到大量的数据，而评议者往往没有时间、精力或者工具去处理这些数据，这是相当大的一个漏洞。当然，他们的工具也不能保证检查出所有的错误——如果作者造假造得严丝合缝，它是无法察觉的。“至少，我们要让做坏事儿的成本高一些。”希瑟尔斯在博客中写道。

而更关键的是，学术圈子内部无法提供透明度。希瑟尔斯坚持认为，公众曝光是必要的。“作者不配合、期刊不配合，又想要安静地处理问题不让别人知道？没有曝光和透明度，事情很难有所推进。”

不同意的声音当然也有。普林斯顿的社会心理学家苏珊·菲斯克（Susan Fiske）把这种行为称作“方法论恐怖主义”（methological terrorism）。“（社交网络和新媒体）鼓励了不经筛选和检阅、不为科学所接受的垃圾讨论”，她在一则学术专栏里如此评论。但欧朗斯基却不敢苟同。即使有一些冲突和争执、乃至不相关的讨论，“但最关键的，难道不是有人可以拿出有分量的质疑，以及有实际意义的材料吗？”

圈内-圈外-重归圈内：一场漂亮战役的落幕

正是这些质疑与材料，构成了最终扳倒万辛克的实锤。

两人分析了万辛克过去几年发的几十篇论文，把数据统统跑了一遍，发现了大量“异常”。比如有4篇关于吃披萨的论文（其中一篇结论是“只要有女人在，男人会吃掉更多披萨”），里面有150多处数据不一致。结合之前学术圈另外一些推测，应该是他们在预设结果的前提下操纵了实验，人为挑选出了能够得出“显著”结果的数据（俗称 p-hacking）。

对万辛克论文的挑错。图片来源：BuzzFeed.com

然后他们礼貌地发信，向作者的系所以及康奈尔负责学术规范的机构询问。但到一定程度之后，邮件内容就会变得“相当尴尬”起来，回复也变成了“正在调查”这样的推诿。他们知道，这时候就应该转向大众了。

布朗和几名学术伙伴先在预印本网站 PeerJ 发了一篇文章，名叫“数据让我胃疼：想要消化康奈尔食品和品牌实验室四篇披萨论文的企图”，用学术论文的体例提供了翔实的数据分析；然后希瑟尔斯在 Medium 上连续发文，用平实的语言解释了万辛克研究的问题所在，夹杂着让人爆笑、又直呼精彩的幽默段子。

这仿佛是向学术圈投下了一颗炸弹，吸引了大量关注，PeerJ 上的预印本被下载了近万次。然后是 Vox、Slate、《卫报》等主流媒体先后报道，对万辛克的研究提出了质疑。BuzzFeed 记者斯蒂芬妮·李（Stephanie Lee）用一篇长达4000词的调查报道《常青藤教授如何把劣质数据做成流行研究》，牵出了万辛克以及他的实验室更多的问题：研究生用假数据搪塞、用结论操纵数据、论文重复发表、自我抄袭等等。

BuzzFeed 的调查报道。截图：BuzzFeed.com

这一切在希瑟尔斯看来是水到渠成的。“没有发布会，没有通稿，媒体自然就被吸引了过来。”毕竟，万辛克也曾是叱咤科学媒体的一颗明星，而这颗明星也在媒体的曝光下走向了陨落。“不能说希瑟尔斯和布朗百分百主导了这件事情，” 欧朗斯基说，“但在他们的揭发下，在公众和媒体对事情的曝光下，期刊关注到这件事情的严肃性，这是非常关键的。”

就在这篇文章写作的同时，两人正式发布了“精灵”工具并将其开源，希望将 “数据流氓”的事业推广开去。“它是一个非常灵活、有用的工具。”希瑟尔斯说，“当全世界都能使用它的时候，我们就能更严肃的讨论研究数据的准确性问题了。”

至于万辛克（和他的胡萝卜）呢？在社会的重重压力之下，期刊和学校也只好向这位学术明星动手了。万辛克通过发言人诚恳道歉，承认过去工作中的“不妥”，且接受学术审查机构的调查。他也不得不对过去几年发表的十几篇文章做出修改，其中有5篇被彻底撤稿。

他给《预防医学》的期刊编辑写了一篇比胡萝卜论文本身还长的修改意见，而他是这样解释60个胡萝卜的问题的——“给孩子们吃的是‘四个抵一个、体积极小的火柴棍胡萝卜’。”

但谁关心呢？反正这篇论文最后还是被撤稿了。

（编辑：拇姬，Ent）

参考文献

Heathers, James A., et al. "Recovering data from summary statistics: Sample Parameter Reconstruction via Iterative TEchniques (SPRITE)." PeerJ PrePrints (2018).
van der Zee, Tim, Jordan Anaya, and Nicholas JL Brown. "Statistical heartburn: an attempt to digest four pizza publications from the Cornell Food and Brand Lab." BMC Nutrition 3.1 (2017): 54.
Marcus, Adam, and Ivan Oransky. "The data thugs." science.sciencemag.org (2018): 730-732.O'Grady, C. (2017, November 28). Researchers find oddities in high-profile gender studies. Retrieved from https://arstechnica.com/science/2017/11/researchers-find-oddities-in-high-profile-gender-studies/
Heathers, J. (2016, May 23). The GRIM test - a method for evaluating published research. Retrieved from https://medium.com/@jamesheathers/the-grim-test-a-method-for-evaluating-published-research-9a4e5f05e870
Heathers, J. (2017, March 03). Introducing SPRITE (and the Case of the Carthorse Child). Retrieved from https://hackernoon.com/introducing-sprite-and-the-case-of-the-carthorse-child-58683c2bfeb
Nick Brown Smelled Bull. http://narrative.ly/nick-brown-smelled-bull/

注：SPRITE 已发布并开源，感兴趣的读者可以在这里：https://peerj.com/preprints/26968v1/ 找到预印本说明，源代码在此： https://osf.io/pwjad/ 。

题图来源：cornellsun.com

The End

发布于2018-06-05，本文版权属于果壳网（guokr.com），禁止转载。如有需要，请联系果壳。

举报这篇文章

李子李子短信