1914
需用时 03:49
再做一次做不出:100项心理学成果,超过六成不可再现

当你在果壳上读到一项有趣的心理学研究,你会不会想:“这个研究再做一次,能得到相同的结果吗?”

如果这个念头闪过你的脑海,恭喜你!你和许多科学家思忖着相同的问题——科研结果的可再现性(reproducibility)。可再现性是科学的核心特征。它意味着,当我们分析某个研究产生的数据,或是用与原研究同样的方法收集新数据时,这些数据能通向与原研究相同的结果。

然而,“尽管可再现性如此重要,我们对科学研究总体上的可再现性如何却知之甚少。”弗吉尼亚大学心理学教授布莱恩·诺赛克(Brian Nosek)说,“越来越多人担心科研成果的可再现性会比期待中或理想状况更低。”

早在十年前,斯坦福大学医学院的约翰·尤安尼迪斯(John Ioannidis)教授就发表了一篇名为《为何大部分已发表的研究发现都不真实》(Why Most Published Research Findings Are False)的报告。他估测,按当前期刊出版和数据分析的趋势,很有可能导致一半以上的科学研究成果与事实不符,进而难以被再现。

尤安尼迪斯不是一个人在战斗——十年后,在诺赛克参与创建的“开放科学中心”(Center for Open Science),一群研究者试图大规模探索发表在主流心理学期刊上的结果的可再现性。

100项研究,可再现的结果不足一半

在这个名为“可再现性项目:心理学篇”(Reproducibility Project: Psychology)的大课题中,来自五大洲的超过270位研究者试图再现在3份顶级心理学期刊上发表的100项研究发现。研究结果[1]发表在最新一期的《科学》(Science)上。

在2008年发表在各本《心理科学》《人格与社会心理学》及《实验心理学杂志:学习、记忆与认知》上的488篇论文中,可再现性项目研究组选择了111项适合重复的研究进行验证,最终有100项重复工作及时完成,被汇总到论文中。

研究者定出了衡量可再现性的五条标准,而根据这些标准判断,能再现的研究不足一半

对比原研究(Original Studies)和再现研究(Replications) 中的P值(P values,图A)和效应量(Effect Sizes,图B)的密度图。图片来源:研究论文

100项原研究中,97%的研究得出了显著的效应——获得了小于或等于0.05的P值。然而,再现研究中仅有36%得出了同等的效应。此外,与原研究的结果相比,再现实验所得出的效应量出现了明显减小。83%的再现效应都小于原研究估计的效应。

作为迄今为止最大规模的再现项目之一,这一研究在心理学界至于整个科学界都引起了关注。这看上去并不乐观的结果说明了什么?

结论值得反思,定论言之尚早

谈到这篇论文时,《科学》杂志的主编玛西娅·麦克纳特(Marcia McNutt)博士表示这样的项目能帮助学界更好地理解怎样的研究更可能被再现。“例如,这项研究的一个重要结论在于,如果原研究的结果越显著,这些结果就越可能能被再现。”她说,“这告诉论文作者和期刊编辑,他们对待那些处于边缘显著状态的结果要尤为谨慎,因为这意味着它们没那么可能被重现。”

“需要强调的是,这一多少有些令人失望的结果并不直接对原理论的正误盖棺定论,这一点非常重要。”《科学》的高级编辑吉尔伯特·钦(Gilbert Chin)博士强调,“研究结果表明的是,我们不应该过分确信支持某种假说的原始实验数据。”

诺塞克指出,有三个原因可能解释一些原研究的结果为什么无法被再现。“其一是原研究所得的效应是假阳性结果,这个效应本就不真实,被观测到纯属偶然。其二则可能是我们的再现研究得到了假阴性结果,而没有捕捉到真实的效应。”诺塞克说,“又或者,原研究和再现研究的估测都是准确的,可两者的研究方法在关键部分有了差别。”简而言之,无法再现原研究发现并不意味着原研究是错误的。同理,即便结果被成功再现,也不能证明原研究的假设肯定是正确的。

好烦好含糊,能不能给出一个定论?

现在还不能。

人们总渴望“说一是一说二是二”,科学家也不例外。但科学的特性决定了这不现实。“我们也很希望从每个研究每个项目每篇报告中获得确定无疑的答案,但科学提供的并不是确定性,至少不能马上提供。”诺塞克解释说,“科学是一个不断减少不确定性的过程。”

每年,科学界进行的各种研究超过150万个,这个数目还在不断增加。“每个研究都有一定的证据,为形成某个结论提供了些许信息。但真正的结论,让你能确信某个东西是正确还是错误的那个结论,依赖于许多研究的证据积累。”诺塞克告诉我们,“所以,一般读者应该从中学会的关键点在于,没有任何一个研究能给出最终定论。”

可再现性项目只是开始

维克森林大学的助理教授E·J·玛思坎普(E.J.Masicampo)也许能很好地理解这种关系。他在可再现性项目中有两层身份:既负责重复同行的一项研究,他自己发表的研究也是那100项研究之一,被其他同行重复。

据玛思坎普介绍,在设计研究时,再现队伍首先与原作者取得联系,以保证再现研究忠于原研究。在收集数据前,原作者和第三方审查者会对研究设计再进行评价。“我和同事所重复的那个研究,我每个学期都会向本科生讲授。”他表示,这个项目为重复那些吸引他很久的研究提供了好玩的机会,他也相信自己的研究在透明与合作的框架下得到了质量极高的处理。“这个项目的一大裨益在于为如何大规模地进行高质量的重复实验提供了一个范本。”玛思坎普说。

跟不断被发表的众多心理学结果相比,这100个再现研究就像一桶水里的区区一滴。但有了这样的尝试,研究者希望,这个项目能作为探索科研成果可再现性的第一步,激发更多的研究去关注心理学乃至其他科学领域研究的可再现性问题,同时也促进研究结果的发表标准进一步提高。

用吉尔伯特·钦的话说,科学不总是一条笔直的航线——我们并不能一帆风顺地从理论港途经实验湾,驶到理解站。我们必须不断质疑、不断评估理论和实验,才可能向真正理解不断迫近。

(编辑:Calo)

参考文献:

  1. Open Science Collaboration, Estimating the reproducibility of psychological science. Science Vol. 349 no. 6251 DOI: 10.1126/science.aac4716

文章题图:twitter.com

 
 
 
 
 
 
 
The End

发布于2015-08-30, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

诶斯达

剑桥大学心理系学士、二语教育硕士。

pic