5265
需用时 10:31
两个“数据流氓”如何掀翻学术大佬

问:什么样的小学生一顿饭能吃60根胡萝卜?

答:参加康奈尔大学食品实验的。

作为笑话这可能相当冷场,不过詹姆斯·希瑟尔斯(James Heathers)算出这个结果的时候,想必是乐不可支。

在他面前的是一篇来自康奈尔食品实验室的论文,题目叫做“吸引人的食物名字能增加小学生的蔬菜摄入”。论文里发现,如果把某种十分惹人厌的蔬菜命名为“X射线眼胡萝卜”,小孩子就会大吃特吃,比“今日美食”好得多。

这……简直是典范级的搞笑诺奖研究呀!

能搞出这类研究的当然不是泛泛之辈。论文第一作者名叫布莱恩·万辛克(Brian Wansink),过去十几年里行为心理学领域最火的研究者之一。他和他领导的康奈尔大学食物与品牌实验室(Cornell Food and Brand Lab)发布的一些研究,很多人也都听说过:盘子越大会让人吃得越多,号称健康的餐馆会让人低估自己的进食量,等等。万辛克不仅在学术界备受推崇,还经常在主流媒体露面,写畅销书,教人们如何健康饮食、轻松减肥。

布莱恩·万辛克。图片来源:cornellsun.com

这篇论文本身论述清晰、过程合理,实验结果数据显著、证据确凿,配上康奈尔的金字招牌,让人挑不出毛病。然而,它却让希瑟尔斯直觉起疑。他立刻知道应该从哪下手——他告诉我,这实在是 “再明显不过了” :未公布的原始数据。

不用他说,这我也知道啊。问题不就是原始数据没公布别人只能干瞪眼吗?

但希瑟尔斯自有绝招:一个他自己编写的特殊软件,能够利用统计学原理,从发表的结果重建出原数据的可能面貌。只消几分钟,他就从这篇胡萝卜论文里得到了500组模拟。结果呢?要得到论文里的平均值、方差和样本量,最大样本至少会有55,很可能在60以上。

换句话说,实验中的某个孩子需要吃掉60个胡萝卜,才能产生与实验数据相匹配的结果!

一不做二不休,希瑟尔斯干脆买了一袋只有小指头大小的“婴儿胡萝卜”(baby carrot),数了60个出来放在电子秤上,足足471克。

“显然,至少有一个实验对象是一匹马。”他在博客里一本正经地写道。

手撕各路论文,全凭一个突发奇想的小工具

这番闹剧还要追溯到2017年2月,那时希瑟尔斯的学术网友尼克·布朗(Nick Brown)在博客上发了一篇文章,指出万辛克某几篇论文的数据可能有问题。希瑟尔斯于是拿出了这个绝招软件,名为“精灵”。

精灵全称是“基于迭代技术的样本参数重构”(SPRITE ,Sample Parameter Reconstruction via Iterative Techniques),名称不明觉厉,实际上原理非常简单暴力。他用胡萝卜举例,介绍了这个工具的原理。

比如,有10个人参加了实验,平均每个人吃了3个胡萝卜,样本量为10,标准差为0,可能的数据组合只能有1种, 那就是10人每人3个。若平均值不变,标准差变成0.32,那么可能的结果则是其中两个人一个吃了4个、一个吃了2个。精灵做的事情,就是根据给定的统计结果,反向算出符合该结果的所有原数据组合,以及每个值可能出现的概率。当抽象的统计指标化身为具体的数据组合,问题就很容易看出来了——就像万辛克的胡萝卜文章,一顿饭60个胡萝卜,显然意味着数据有问题。


SPRITE 的原理——对统计数据的重建。图片来源:twitter@jamesheathers

这个解决问题的思路诞生于更早的2014年。那时,法国南布列塔尼大学的心理学家尼古拉·吉根(Nicolas Guéguen)在期刊《心理学报告》上发了一篇论文,研究了女性几种不同的发型对男性心理的影响,结果显示,扎马尾的女性更容易让陌生男性伸出援手。

当希瑟尔斯看到布朗发给他的这个研究的时候,不禁笑出了声。不仅是因为题目——这个教授还曾经发表过类似于“高跟鞋能让女人更有性吸引力”和“金发服务员能获得更多小费”等标题颇为小报风的研究——而是这些研究本身就有众多可疑之处。其中一个研究里,研究者假装路人,在街上随机拦下18-25岁的女性,来研究特定条件下要电话号码的成功率。然而年龄这个变量怎么控制的?女孩们会在礼貌拒绝陌生人要电话的同时,还礼貌地告诉他们自己的年龄以供统计?

但这些研究方法的问题容易被搪塞过去,论文里的最终数据才是实锤。两人于是开发了一个简单的测试,想从平均数上找突破。

在心理学小样本实验中,平均数一定是几个整数加在一起除以样本数的商。你不可能问一个女性2.5次电话;5个人吃整数个的蛋糕,吃不出来平均每人2.1个。他们发现,吉根的一些研究里的平均数在数学上是“不可能”的;而另一些数值看上去又过于规整。譬如马尾辫这项研究中,若想使最终结果成立,那么每个分值必须恰好出现了6、12、18、24次,这种情况发生在现实中的可能性是170万分之一。

而“精灵”就是这个想法的升级版产物。他们靠自己发明的简单粗暴小工具,为揭发有问题论文开辟了全新的思路。有人揶揄他们为“数据警察”,希瑟尔斯却自嘲自己为“数据流氓”(data thug)——无组织无纪律的散兵游勇。警察是官方的、有权力的,然而他们并没有任何资金支持,这件事也和任何官方机构无关。现年35岁的希瑟尔斯在美国波士顿东北大学(Northeastern University)计算行为科学实验室做博后,专攻生理学,为论文找 bug 纯属业余事业;而布朗虽然已经57岁,却也仅仅是荷兰格罗宁根大学(University of Groningen)的一个心理学博士生而已。

“没有警察,那流氓就要出手了。”布朗说。透过他的邮件,我仿佛能看到他脸上汉弗莱爵士一般的微笑。


詹姆斯·希瑟尔斯。 图片来源: jamesheathers.com

流氓会武术,大佬究竟挡不挡得住?

学术流氓的路线很适合希瑟尔斯的性格。从研究生时开始,他便不断地发现各种论文中的问题,想要找到数据背后的全貌。“全靠直觉摸索,就像在黑暗的屋子里找灯的开关”。他尝试过将自己的疑问发给作者或者期刊编辑,大部分杳无音信,有的时候则被忠告说 “最好忘了这茬”。

他自己完全不在乎会冒犯到谁,也从来不看学术大佬脸色,是个“会在晚宴上公然放屁的家伙”。“你是不是作弊,我们不感兴趣。我们只对你犯的错误感兴趣。”希瑟尔斯带着平静而诚恳的语气对我解释,“当然,也有可能是我们错了,我们就只是纯好奇而已。”

然而,对于他们俩这样的学术界“边缘人士”而言,跟有问题的研究较真的过程十分漫长,甚至有时候是没有结果的。

在发现了尼古拉·吉根多篇论文的问题之后,2015年,希瑟尔斯和布朗向相应期刊以及法国心理学会提出了问询。然而,等待着他们的却是漫长的推诿。法国心理学会承诺对作者进行调查,并报送给了法国大学委员会,但冗长的答复只是在强调很多论文是他的研究生的作品,几乎就是“临时工背锅”的翻版;而关于数据的疑问,一个都没有正面回答,更没有提供他们想看到的原始数据。

两年时间过去,尽管他们态度一直平和,有大量合理疑问,甚至一一在论文中标出,但却总是碰一鼻子灰。

“在学术界,并没有一个有效的裁决机构。”布朗在接受媒体采访时说。期刊可以让作者修改或撤稿,官方机构也可能会介入学术不端的调查,但如果作者不配合,进展就会变得十分缓慢,甚至无法推进。所有人都不想走到撤稿那一步——这几乎意味着对研究的全盘否定。

同样的事情,布朗并不是第一次经历。他在攻读心理学硕士期间,发现一篇备受推崇的“积极心理学”论文实在是难以理解。作者是领域大佬芭芭拉·弗雷德里克森(Barbara Fredrickson)和马西奥·洛萨达(Marcial Losada),论文里使用了一个流体力学的数学模型来描述“情绪的流动”,让他十分错愕。布朗找到了心理学家哈里斯·弗里德曼(Harris Friedman)和数学家阿兰·索卡尔(Alan Sokal)合作,历经波折,发表了一篇论文指出了弗雷德里克森论文中的问题。然而,弗雷德里克森片汤话一般的回应却让三人大失所望。她表示,论文里的数学可能有错,但理论依然是站得住脚的。

布朗说,整个学术圈都时不时能“闻见瞎说的味道”(smell of bullshit),然而他却无能为力。

如果作者死不认错,难道就只能不了了之吗?

“撤稿观察”(Retraction Watch)的创始人之一、前科学记者伊万·欧朗斯基(Ivan Oransky)对此也已司空见惯。“撤稿观察”是一个记录学术界撤稿的博客和数据库,创立于2012年。在他们关注过的数千起撤稿事件中,大约有2/3是因为各种学术不端,其中抄袭占了15%左右。

欧朗斯基说,撤稿的理由可谓是花样翻新,不断挑战着他的想象力。比如同行评议造假——用虚假的邮件地址杜撰专家的评审意见——这个在2012年以前还相当罕见的撤稿理由,到现在已经占了整个数据库的6~7%,大约600多篇。去年施普林格-自然出版集团(最大的学术出版商之一)撤稿了107篇此类论文,其中大部分来自中国。


因为同行评议造假,斯普林格撤下了大量已发表在旗下期刊的论文。图片来源:cgtn.com

撤稿对他而言,是关注学术圈的一个窗口——错误是怎么产生的,整个科学共同体如何修改它们的错误,修改的过程经历了怎样的波折。有的拉锯战持续了好几年,却依旧囿于证据缺乏或者各方不配合而没有定论,也无法以撤稿或者“撤诉”而告终。

毕竟,学术圈子也并不是什么超脱世俗之地。布朗坦承,当他开始读博、做起自己的独立研究之后,甚至能够理解弗雷德里克森面对质疑时候的心境。“人们为自己的成果投入了大量的资源,情感上的、智力上的,还有财政上的。除非真的到迫不得已,否则很难改变自己的观点。”

学者们想要晋升、出名,想要挤进稀缺的终身教职岗位,而这一切的关键就是发论文。我和布朗聊到中国的研究者近年来突飞猛进的发文节奏,布朗表示担忧。“我听说在中国发一篇《自然》或者《科学》,会有上万美金的奖励。在西方学术界,只是名誉激励,就已经带来这么多糟糕的事情……用钱来砸可能是更坏的主意。”

但关键并不在于追名逐利本身,而是学术圈几乎靠着信任在运作,规则薄弱,仿佛科学家们还是18世纪的贵族绅士,正直、不会作假,追求的是真理而不是名誉,指出错误之后会改正……虽然一旦发现学术不端会身败名裂,然而比起巨大的诱惑,随意犯错、或者错了不改的成本也未免太低。虽然撤稿的论文越来越多,但还是有大量的论文停留在内部扯皮阶段,作者不认错,官方也不采取措施,就这么一直拖下去——就像吉根的马尾辫论文一样。

布朗和希瑟尔斯不信这个邪。身为新时代的科学家,他们还有另一条渠道。

“开放科学”:像谈论其他问题一样谈论科学

2017年,布朗和希瑟尔斯写了一系列博客文章,面向整个互联网详尽披露了吉根研究的数据纰漏,介绍了他们的测试方法,引来了学术圈的大量讨论。希瑟尔斯在 Medium 上的文章一周内就有了上万阅读,甚至引起了科技媒体的注意——这是一个好的开始。

实际上,拜互联网所赐,“发表后的学术讨论”(post-publication discussion)近年来已经开始形成规模。在欧朗斯基眼中,官方之外“讨论论文—揭发错误—调查错误—报道错误”的流程,已经形成了一个生态系统。希瑟尔斯和布朗这样的人担任揭发者,而“撤稿观察”则扮演着记录的角色。在 PubPeer 这类学术平台上的开放、匿名讨论,则为这一切提供了基础。

因为吉根的事情,两人在圈里有了一点名声,他们时不时会收到各种人给他们发来的邮件,让他们“帮忙看看”某篇可疑论文在数据上有没有问题。“一旦你公开谈论这些问题,人们便会主动把类似的事儿捅给你。它就像肿瘤一样扩散,无处不在。”希瑟尔斯在接受《科学》杂志的采访时这样形容道。

对于揭发者的角色,希瑟尔斯和布朗也有自己的界定。他们并不认为他们是在“打假”或者揭发学术不端。数据上的小问题可能是一时疏忽的错误,也有可能是巨大问题的冰山一角,而他们只负责当说大实话的“流氓”。布朗对我说:“我们只检查数据的‘不一致’(inconsistency),而把推测为什么的事情交给别人。”当他们发现问题之后,发邮件给原作者询问的言辞也非常温和。邮件通常这样开头:“嗨,我们发现你的论文中有个小问题,你来看看?”这样的低姿态也减小了他们遇到的阻力。

 “现有的同行评议已经有些过时了。”布朗在接受  Ars Technica 的采访时说。同行评议所能覆盖的范围是非常有限的,而现今的论文往往涉及到大量的数据,而评议者往往没有时间、精力或者工具去处理这些数据,这是相当大的一个漏洞。当然,他们的工具也不能保证检查出所有的错误——如果作者造假造得严丝合缝,它是无法察觉的。“至少,我们要让做坏事儿的成本高一些。”希瑟尔斯在博客中写道。

而更关键的是,学术圈子内部无法提供透明度。希瑟尔斯坚持认为,公众曝光是必要的。“作者不配合、期刊不配合,又想要安静地处理问题不让别人知道?没有曝光和透明度,事情很难有所推进。”

不同意的声音当然也有。普林斯顿的社会心理学家苏珊·菲斯克(Susan Fiske)把这种行为称作“方法论恐怖主义”(methological terrorism)。“(社交网络和新媒体)鼓励了不经筛选和检阅、不为科学所接受的垃圾讨论”,她在一则学术专栏里如此评论。但欧朗斯基却不敢苟同。即使有一些冲突和争执、乃至不相关的讨论,“但最关键的,难道不是有人可以拿出有分量的质疑,以及有实际意义的材料吗?”

圈内-圈外-重归圈内:一场漂亮战役的落幕

正是这些质疑与材料,构成了最终扳倒万辛克的实锤。

两人分析了万辛克过去几年发的几十篇论文,把数据统统跑了一遍,发现了大量“异常”。比如有4篇关于吃披萨的论文(其中一篇结论是“只要有女人在,男人会吃掉更多披萨”),里面有150多处数据不一致。结合之前学术圈另外一些推测,应该是他们在预设结果的前提下操纵了实验,人为挑选出了能够得出“显著”结果的数据(俗称 p-hacking)。

对万辛克论文的挑错。图片来源:BuzzFeed.com

然后他们礼貌地发信,向作者的系所以及康奈尔负责学术规范的机构询问。但到一定程度之后,邮件内容就会变得“相当尴尬”起来,回复也变成了“正在调查”这样的推诿。他们知道,这时候就应该转向大众了。

布朗和几名学术伙伴先在预印本网站 PeerJ 发了一篇文章,名叫“数据让我胃疼:想要消化康奈尔食品和品牌实验室四篇披萨论文的企图”,用学术论文的体例提供了翔实的数据分析;然后希瑟尔斯在 Medium 上连续发文,用平实的语言解释了万辛克研究的问题所在,夹杂着让人爆笑、又直呼精彩的幽默段子。

这仿佛是向学术圈投下了一颗炸弹,吸引了大量关注,PeerJ 上的预印本被下载了近万次。然后是 Vox、Slate、《卫报》等主流媒体先后报道,对万辛克的研究提出了质疑。BuzzFeed 记者斯蒂芬妮·李(Stephanie Lee)用一篇长达4000词的调查报道《常青藤教授如何把劣质数据做成流行研究》,牵出了万辛克以及他的实验室更多的问题:研究生用假数据搪塞、用结论操纵数据、论文重复发表、自我抄袭等等。

BuzzFeed 的调查报道。截图:BuzzFeed.com

这一切在希瑟尔斯看来是水到渠成的。“没有发布会,没有通稿,媒体自然就被吸引了过来。”毕竟,万辛克也曾是叱咤科学媒体的一颗明星,而这颗明星也在媒体的曝光下走向了陨落。“不能说希瑟尔斯和布朗百分百主导了这件事情,” 欧朗斯基说,“但在他们的揭发下,在公众和媒体对事情的曝光下,期刊关注到这件事情的严肃性,这是非常关键的。”

就在这篇文章写作的同时,两人正式发布了“精灵”工具并将其开源,希望将 “数据流氓”的事业推广开去。“它是一个非常灵活、有用的工具。”希瑟尔斯说,“当全世界都能使用它的时候,我们就能更严肃的讨论研究数据的准确性问题了。”

至于万辛克(和他的胡萝卜)呢?在社会的重重压力之下,期刊和学校也只好向这位学术明星动手了。万辛克通过发言人诚恳道歉,承认过去工作中的“不妥”,且接受学术审查机构的调查。他也不得不对过去几年发表的十几篇文章做出修改,其中有5篇被彻底撤稿。

他给《预防医学》的期刊编辑写了一篇比胡萝卜论文本身还长的修改意见,而他是这样解释60个胡萝卜的问题的——“给孩子们吃的是‘四个抵一个、体积极小的火柴棍胡萝卜’。” 

但谁关心呢?反正这篇论文最后还是被撤稿了。

(编辑:拇姬,Ent)

参考文献

  1. Heathers, James A., et al. "Recovering data from summary statistics: Sample Parameter Reconstruction via Iterative TEchniques (SPRITE)." PeerJ PrePrints (2018).
  2. van der Zee, Tim, Jordan Anaya, and Nicholas JL Brown. "Statistical heartburn: an attempt to digest four pizza publications from the Cornell Food and Brand Lab." BMC Nutrition 3.1 (2017): 54.
  3. Marcus, Adam, and Ivan Oransky. "The data thugs." science.sciencemag.org  (2018): 730-732.O'Grady, C. (2017, November 28). Researchers find oddities in high-profile gender studies. Retrieved from https://arstechnica.com/science/2017/11/researchers-find-oddities-in-high-profile-gender-studies/ 
  4. Heathers, J. (2016, May 23). The GRIM test - a method for evaluating published research. Retrieved from https://medium.com/@jamesheathers/the-grim-test-a-method-for-evaluating-published-research-9a4e5f05e870 
  5. Heathers, J. (2017, March 03). Introducing SPRITE (and the Case of the Carthorse Child). Retrieved from https://hackernoon.com/introducing-sprite-and-the-case-of-the-carthorse-child-58683c2bfeb 
  6. Nick Brown Smelled Bull. http://narrative.ly/nick-brown-smelled-bull/ 

注:SPRITE 已发布并开源,感兴趣的读者可以在这里:https://peerj.com/preprints/26968v1/ 找到预印本说明,源代码在此: https://osf.io/pwjad/ 。

题图来源:cornellsun.com

The End

发布于2018-06-05, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

李子李子短信

pic