2561
需用时 05:07
研究结果到底是对是错?不如大家来赌一把

(Vicky W/编译)你读到一篇科学文章,查看结果,然后问自己:这是真的吗?它是否反映了事实,还是只是统计学上的偶然?这种批判分析文章的能力,约束着所有的科学领域,是同行评议程序的本质。当然,它比看起来要困难些。

考虑一下心理学。最近,几次重复经典教科书实验结果的尝试都以失败告终,同时,越来越多的人意识到,许多论文并非对假设的仔细检验,而是已被普遍接受统计诡计炮制出,这一切都正让心理学领域蒙羞。我在八月报道过,弗吉尼亚大学的布莱恩·诺塞克(Brian Nosek)带领诸多同行试图重复一百项已发表的实验,但只有三分之一的实验结果与原结果一致;这足以说明问题。

那么问题来了:心理学家们在搞清楚自己的研究是否可靠这个问题上,到底有多大的把握?

根据斯德哥尔摩经济学院的安娜·德雷贝(Anna Dreber)的研究,事实上把握还不小——只要你能让他们集思广益,并赌上一把。德雷贝建立了了一个“交易”科学论文的股票市场,让心理学家们估计44篇已发表文献中的实验可重复的可能性,以此为依据来买进或者卖出这44只“股票”。这个市场在预测重复实验的实际结果上表现很好,当然,也比任何单一股民自己的预测准确得多。

安娜·德雷贝个人主页上的照片:乒乓球台和一堆钞票;不愧是行为经济学家啊。图片来源:sites.google.com/site/annadreber/

德雷贝的点子是在酒吧里萌芽的。当时,她一边跟丈夫乔纳·阿尔姆博格(Jonah Almenberg)、室友托马斯·菲佛(Thomas Pfeiffer)喝酒,一边谈论一个引人注目的心理学实验。她觉得这个实验“挺聪明,但不太可能是真的”。就在她猜测着自己的直觉有多准时,菲佛提到了乔治梅森大学的经济学家罗宾·汉森(Robin Hanson)的另一篇论文。这篇论文的题目是,《赌博能拯救科学吗?》文中提出,如果学者能用期货交易商对商品未来价格下赌注的方式,就有争议的学术成果打赌,他们便能获得更真实可靠的共识。

“这个说法让我们都惊呆了。”德雷贝说。2012年,她和同事们联系了诺塞克,对方同意在自己的重复实验项目中加入预测市场。

44支“研究股”,谁涨了谁跌了?

预测市场具体是这么操作的:92个参与者每人都会得到100美元,可以用来买进或者卖出41篇正在进行重复实验的研究。交易开始时,每支股票——也就是一项研究——价值0.5美元。如果研究被成功复制了,他们会得到1美元;如果没有,那他们什么都得不到。随着时间推移,这些论文的市场价格也会根据被买进或卖出的数量而上升下降。

通过投注给他们认为能成功的研究,参与者们努力使自己的利润最大化,同时,他们也能实时看到其他人共同决策的结果。两周的实验结束后,交易者们共同决策所决定的股票最终价格反映了每项研究能被成功复制的可能性大小。如果股票价格是0.83美元,就表示市场所预测的复制成功率是83%。如果最终价格大于0.5美元,德雷贝的团队就将其视作预测重复实验复制成功,反之就是预测重复失败。

最终,市场准确预测了71%的复制结果。这样的成绩虽然说不上让人震惊,但在统计学上也是显著的。话说回来,根据最终价格,研究团队的预期是市场只在69%的情况下预测正确——这与结果大致相符。(请记住,这些价格指的是成功的可能性,本身就包含着对它们所代表的预测的不确定性。)图中纵轴表示股票的价格;价格超过灰线(0.5美元)的股票视为被市场预测为能够成功重复。黑色的方块是真正重复实验成功的研究(共16个);红色的方块是重复实验失败的研究(共25个),灰色的方块是尚未完成重复的研究。图片来源:研究论文

“群体智慧是存在的,人们对哪些结果对、哪些结果错有某种直觉。”德雷贝说,“这就让我不禁想:那同行评议是怎么回事?如果人们知道哪些结果很可能不对,那他们为什么还让它们发表出来呢?”

这个嘛,诺塞克解释道,市场中的参与者仅仅在意研究是否能被复制,但同行评议者还会关注实验设计、重要性、利益等其他因素。同时,工作性质使然,评议者往往独自工作,而德雷贝的交易人们单干时也表现得十分糟糕。当德雷贝让他们预测每项研究成功复制的几率时,他们的正确率只有58%,不比瞎蒙好多少。但作为集体,他们能看到其他人的想法,因此结果就有效得多。

“这表明,在进行重复试验之前,就已经有了预测复制成功率的信息。”诺塞克说。这些信息到底是什么?在交易中表现优秀,来自布里斯托大学的马库斯·穆纳夫(Marcus Munafo)表示:“我并没有一个清楚的策略。”他自己也将预测市场用于评估科学研究。他重点关注统计功效,最初的研究发表在哪本刊物上,以及研究属于心理学的哪个领域。“除了这些之外,我只不过是在用直觉来判断研究可不可信。”

来自斯坦福大学,从事研究偏见和不当行为研究的达尼埃尔·法内利(Daniele Fanelli)说,这就是最有趣的部分。“它提出了一些趣味无穷的研究问题,关于对参与者来说,理解哪些因素——无论是有意识还是无意识的——是最有信息量的。”他说道。

诺塞克补充道:“我们也许能利用预测市场,更有效地决定哪些研究需要被重复,同时用来估计那些不太可能、或者根本不可能被复制的研究的不确定性。”

但法内利对此并不确信,他认为这种方式“过程太过麻烦,不太可能被广泛采用”。汉森之前也有过类似的怀疑。“这些年来,人们已经进行过大量的预测市场实验,这些发现其实并不惊人,”他说,并表示:“我认为,绝大多数在学界工作的普通心理学家需要比满足个人好奇心更强的激励,才会愿意参与到这个项目中来。”

学者们在预测市场的成功需要与切实的利益挂钩,比如金钱奖励,或是对发表、拨款和求职有利。他解释道:“想象一下,如果有一本,甚至几本顶尖刊物使用预测市场给出的可重复概率来决定要不要发表论文, 论文的作者,和反对他们观点的对手就有了参加预测市场交易的动机。如果其他人认为只有作者或对手参与的交易会使预测产生偏见,他们也会得到加入市场的激励。”

看待科研的新视角

预测市场的用途不仅限于分析单个研究的可靠性,它还为观察科学研究的过程本身提供了一种有趣的视角。利用最终市场价格和一些统计趋势,德雷贝的团队能够回溯每一项研究的历史,展示出在研究过程,假设是怎样被一步步增强和削弱的。

比如说,在经过任何实验之前,它们所验证的假设有多大可能是正确的呢?只有8.8%。这反映了一个事实——心理学家往往会将新奇的现象作为研究对象。

更令人担心的是,在实验完成、评议、出版之后,它们所验证假设正确的可能性大小也仅仅上升到了56%。“所以说,如果你在阅读这些期刊时好奇它们到底是不是真的,抛个硬币就可以了!”德雷贝说,“我觉得这还挺糟糕的。人们总是说如果P值小于0.05,那么就有95%的可能性这个假设是正确的。这是不对的,你需要高强度的复制结果。”

事实上,德雷贝团队计算出,如果其他学者成功复制了某项研究结果,那它的假设就有98%的正确率。如果失败了,那正确的几率就下降到了6%。“重复实验失败所产生的怀疑,和研究初始时的可信几乎是等量的。”诺塞克说,“就好像研究又回到了起点,成了一系列有趣、但大多数都不太可能成真的想法,需要证据检验才能得出强有力的结论。”

假设的一生:为真的可能性从刚提出时的8.8%(中位数),到经过研究、但未接受重复检验的56%;接下来,如果重复失败,可能性便会一路跌到6.3%,但如果重复成功,便会上升到98%。图片来源:研究论文

目前,德雷贝正在其他领域重复她的实验,例如实验经济学。“我不想只针对心理学。”她说,“也许其他领域更糟糕,但至少心理学家愿意认真对待。”(编辑:Ent)

The End

发布于2015-11-23, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

Ed Yong

Ed Yong是科学作家,著名科普博客Not Exactly Rocket Science的博主。

pic