心理学实验可重复性的讨论到底是怎么回事?

下面是@Synge 的微博截图

微博中的第一个链接 http://openscienceframework.org/

第二个链接 http://www.sciencemag.org/content/335/6076/1558.full?rss=1


去年荷兰心理学家戴德里克•斯塔佩尔(Diederik Stapel)数据作假被爆出
http://www.guokr.com/article/78068/

今年心理学大牛 Bargh 又被爆出实验可重复性的问题,当然这是两件事,他们之间不一定存在内在联系,也是两个争论啦~

不过⋯⋯谁能先讲讲 Science 针对 Bargh 的这件事的来龙去脉?

推荐  (1) | 2人关注关注
6个答案
15 1

hcp4715社会认知神经科学控

2012-03-31 22:01

实验结果能够重复是科学界普遍接受的、用于检验科研结果的黄金标准,自冯特童鞋以来的科学心理学也不例外。然而最近心理学界关于研究的可重复性问题的关注,可以说是空前的。

事件1:至力于免费提供科研报道的Plos one上发表了Doyen 等对Bargh等1996年一项研究的重复,但是并未重复出原研究的结果。知名科普达人Ed. Young报道了这个研究结果,并以心理学教科书中“聪明的汉斯”作为开头。Bargh在博客上语气比较偏激的回复,引发了一场骚动(学习了几个GRE词汇:brouhaha, kerfuffle, jugular),不少心理学家参与、更多人都是像我一样,板凳坐好围观。

事件2:30月30号的Science关注了心理学家们关于本学科内可重复性问题的行动:Open Science Collaboration (OCS,译为公开科学的联合行为?anyway,以下称为联合行为)。该联合行为准备大规模地重复2008年发表在几个杂志上的论文。该文并未提及到Bargh的事件,而是提到了让Science蒙羞的Stapel事件。

Q:Bargh等1996年做了一个什么实验?
A:Bargh于1996年在Journal of personality and social psychology上发表了一项多次的研究(google scholar里面引用高达1960次),表明启动刻板印象之后,人们的行为会发生改变。第一个实验中,启动粗鲁概念的参与者(与启动礼貌相关的参与者相比)会更加倾向于打断实验;在第二个实验中,他们发现当启动参与者与老年相关词汇后,参与者离开实验室的脚步会变慢(更像老年人的行为);第三个实验中,启动非裔美国人后,参与者对实验员提出的不合理要求更加有敌意。这个研究受人关注是因为它说明无意识的启动会直接改变人的行为。PS:听哈佛positive psychology课程的童鞋可能听Tal提过这个研究。

Q:Doyen等重复的是哪个实验呢?
A:Doyen等人重复了Bargh实验室的第二个实验,即老年刻板印象让参与者走路变慢。Doyen在plos one的实验报告中,使用了两个实验。第一个实验称完全按照Bargh等的实验程序进行,除了测量速度由人工记时改为红外装置测速。(但是有这么一句描述:Participants were clearly directed to the end of the corridor to avoid any wandering and crossed each beam on each passage. 这句是Bargh后面反驳的重要一点。)但是他们并未发现通过无意识地启动老年概念让参与者走出实验室外走廊的速度变慢。第二个实验中,他们进行了扩展,增加了主试预期,即告诉实验员,启动老年词汇应该会让参与者走路速度变慢。并且除了红外测量外,增加了人工记时。这个实验发现老年词汇启动组比非老年词汇启动组走路更慢。于是Doyen等暗示Bargh等1996年的实验中,未控制好主试的期望效应(注意,这里个暗示是一个起火点)。

Q:Doyen等是唯一一个报告的未能重复Bargh et al (1996)研究的吗?
A:不是,还是Pashler报告的一次尝试。Matthew Lieberman 在其博客中也提及他以前试图去重复过一次,失败了(PS:这位大牛重复过几个实验呢)。

Q:为什么这个重复未果的事件会变成心理学家的“群众运动”?
A:首先,Doyen在其论文中暗示Bargh等的研究可能未控制好期望效应(如上所述),但是实际上他们小组的两个研究并不足以做出这个推断。根据另一博客The Hardest Science中的分析,他们犯了因果推断的一个谬误:混淆了原因的效应和效应的原因(the causes of effects with effects of causes)。这个谬误背后的统计意义和理论可能很深(我也不太懂了),根据这个链接中的文章,我的理解向前推理和回溯推理的区别:操纵A后观察到A的效应(B),可以进行推断A引起B;但是如果你先观察到B,再去回溯引起B的原因时,你不能说一定是A引起的。放在这里,就是说Doyen等的实验2观察到了实验者预期(A)影响了启动效应(B);随后在讨论中回溯Bargh等的实验效应(B)时,认定他们就是实验者预期(A)起了作用。算是一个失察。
其次,Ed. Young在他第一篇关于Doyen等研究的报道中,将Bargh等放到了一个难堪的位置(不管他是否有意还是无意)。在开篇中,他提到了“聪明的汉斯”效应。这个故事大致是说,一位德国人的马特别聪明,能够通过它的踏蹄的次数来解决一些计算问题。由于当时人们对动物智力的兴趣,德国当局组成了委员会专门调查此事。心理学家Pfungst通过试验会后发现,其实汉斯是观察到了提问者、围观者细微的表情和肢体动作变化后,决定是否停止踏蹄,从此“聪明的汉斯”成为心理学里重要的一课:实验中实验员的期望可能带来他们想要的、但并非真实的结果。因此用“聪明的汉斯”来暗指Bargh等1996年的实验,对Bargh的实验室来说是确实会难以接受。
由于前面两个原因,Bargh在其博客natural unconscious中的回应非常具有攻击性。标题为:Nothing in their heads(虽然Doyen等犯了点小迷糊,但是也不用这么贬低他们嘛)。里面还有关键词, plos one = pay-as-you-go publications, Ed Young = Superfacial online science journalism。这些人身攻击带来了比较不好的影响。Plos one的编辑也严辞回应,表示其并非盈利的杂志,也有严格的同行审稿过程。而Ed Young(目前最优秀的网络科普作者之一)在Bargh的博文中进行了回复,也写了第二篇关于这个问题的博客来回应。其他的很多人参与进来,也主要是由于对Plos one或者Ed Young抱不平。
除了人身攻击引起不满之外,Bargh的对内容的回复也引起也很多争论。Bargh在Nothing in their heads里面提到,Doyen的研究与他们96年的研究有很大的差别,但是遭到了名为” Another Matt”的逐条反驳。
其一,Doyen等的论文中用Participants were clearly directed to the end of the corridor to avoid any wandering and crossed each beam on each passage.来描述被试如何走出实验室;而在Bargh的研究中是这么说的:the experimenter told the participant that the elevator was down the hall。Bargh认为Doyen的这个句话表明他们让被试注意到自己如何走出走廊这个问题,而当无意识的问题被意识到的时候,启动效应会消失。然而也有人回复认为Doyen的句话并未显示出他们将参与者的注意引到了他们走路这一事实上来(Ed Young在第二篇博客中也是这么认为的)。
其二,Doyen等过度启动。Bargh指出,过度启动会导致启动失效,比较适合的是在30个填充句子任务中有10~12个启动词;但是Doyen等用得太多。但是回复中有人指出,Bargh自己在96年的研究中,也未写清楚有多少个启动词,只说明了选择出了28个词。
其三,Bargh认为,Doyen等研究中没有确定参与者的头脑中确实有“老年人(eldly)的刻板印象,但是回复指出,Bargh1996中也并未明确写清楚他有确定过他的被试有“老年”的刻板印象。
Bargh回复的其他要点是:他的实验主试并未对实验有预期(在第一回复是,表示主试让知道对被试所处的条件保护blind状态;第二次回复补充,做实验的研究生对结果表示非常惊奇);刻板印象启动行为的效应已经得到了广泛的验证,即得到概念重复(conceptual replication)。
总的来说,多数人的问题在对Bargh的人身攻击行为表示不满,关于Bargh原实验的问题,虽然在咬文嚼字,但是多数人并不觉得Bargh有问题(除了下面截图中那位哥们很明显的暗示外)。

Q:Bargh的研究有没有得到成功地直接重复过?
A: Bargh在第二个回应中指出,他们的研究得到了充分的重复。他们96年文章中,实验2b就是直接重复。据Nothing in their heads回复中署名为Peter C.回复,据他所知(他表明身份,是该领域一个杂志的编辑),除了Bargh实验室之外,没有人报告成功地重复过这个研究。以下为Peter C.的回复内容和另一个人附和的截图(注意红线部分,下文会讨论这个问题):

Q:什么叫概念重复(conceptual replication)?
A:在Bargh的第一个回应出来后,概念重复是讨论的重点之一,Ed Young在 twitter上表示这个概念并好理解。在Bargh的第二个回复中,对概念重复进行了说明:This conceptual replication was designed to be as different as possible to the elderly priming study in operationalizations and concrete details while retaining the hypothesis that activating a stereotype in the perceiver without the perceiver's knowledge would increase the perceiver's own behavioral tendencies to act in line with the content of that stereotype. By changing as many of the concrete details of the study while retaining the more abstract conceptual hypothesis, we were striving to test the generalizability of the basic stereotype-behavior principle, beyond the particular elderly stereotype and walking speed measure of Study 2, to a different stereotype, a different method of activating it, and a different behavioral dependent variable. 也就是说,改变实验方法、细节来证明这个实验所证明的理论模型/概念是正确。但是注意我在截图中标出来的这句话,这也是Ed. Young和其他科学家在twitter中表示出的担忧。(PS:概念重复在社会心理学的研究中似乎很常见,这个概念也困扰了我好久,但是这次算是有个明确的说明了。)

6 0

非言语进化心理学博士生

2012-03-31 22:12

@hcp4715 重复验证的确是心理学的硬伤,因为阴性结果的出现可能有很多的原因,就像不幸家庭各有不幸;而阳性结果的出现则通常是诸多条件具备,就像幸福家庭大多相似一样。由于代价较大,重复验证本身的缺陷是创新性较低,对于验证者本人而言收益较小,因此除非有奖励性的机制或措施,否则发表在学术期刊上的文章其作者大多不具有重复检验自身结果的动力。而这样的结果一旦发表,别人没有得到一致结果的文章就比较难发。

在通常的情况下,读者则可以通过自身的直觉进行判断研究结果的可信不可信,这一方法的优点是费用低廉,缺点是有的人的直觉不那么灵敏,甚至灵敏的直觉也会犯错。

0 0

@hcp4715 重复的实验不好发,没有重复出别人的结果更不好发。谁还去重复?

1 1
支持者: Elves

总之觉得现在心理学是用自然科学的手段和技巧研究社会科学。

0 0

封子野庸俗唯物主义者

2012-04-06 10:08

心理学归根结底还是属于自然科学吧,等到对大脑的研究精确到一定地步,靠主观设计的实验就会越来越少啦。

0 0

“等到对大脑的研究精确到一定地步,靠主观设计的实验就会越来越少啦。”这显然是一种悖论,研究大脑本身就离不开实验者的主观设计的实验

查看更多

添加回答

登录 后回答问题,你也可以用以下帐号直接登录

相关问答

关于我们 加入果壳 媒体报道 帮助中心 果壳活动 家长监控 免责声明 联系我们 移动版 移动应用

©果壳网    京ICP证100430号    京网文[2018] 6282-492号    新出发京零字第朝200003号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区