该相信什么,该怀疑什么?

事情的起因是我在微博上推了一篇关于通过走路姿态判断性经验的研究 (微博)。因为只是猎奇,我只写了一句话,并没有做过多的解读。但这是一个话题性的研究,必然很吸引眼球。目前已经被转发600多次,并引来了果壳性情站的评论《高潮有没有,咱们走着瞧?》。文章的中心思想是这个研究不靠谱,可是反驳的论点都站不住脚,而且在我看来这样的文章在实际上造成了很坏的影响。

一,研究靠谱么?
这个研究 (A Woman's History of Vaginal Orgasm is Discernible from Her Walk)发表在学术期刊The Journal of Sexual Medicine上。是一篇通过严格同行评议程序发表的文章。Peer review是科学交流的一个重要的环节。所有要在学术领域交流的实验报告和学术观点,都要先通过几个同行的匿名评审,经过几次修改,才能最后在学术期刊上发表。这个期刊的影响因子为3.957,虽然不高但也不低,不能说它是一个不靠谱的期刊。当然,一些烂文章也可能侥幸被同行接受发表。那就要看的是这篇文章发表之后被引用的情况。根据Google scholar,这篇文章已经被引用19次。3年的时间里相比于期刊影响因子,被引次数并不少。总之,从学术发表和引用方面看,这篇文章是靠谱的。
再来看果壳这篇质疑文的论据。一是样本量。该研究采集了16名志愿者走路的录像进行判断,按照冷月如霜的观点样本量太少。在实际研究中使用多大样本量是一个需要权衡的问题。样本量大,结果固然可靠,但是同时成本会提高,可操作性变差,投资收益比降低。当然,样本量小,变异就会变大,结果就会不可靠。但要注意的是,在根据实验数据得出结论时,是同时考虑到观测误差以及实验效应两方面因素的,这就是统计的作用。误差小,观察到的效应不需要很大就能得到统计上的显著结果;误差大,则需要效应很大才能统计显著。但不管误差有多大,在得到p < 0.05 的显著水平时,都表明如果完全随机,得到观测数据的概率小于5%,是小概率事件,观测结果不太可能是由随机误差造成的。因此,所谓样本小,并不是一个靠谱的指控,更不能就说明研究的结果错了。
另外,我们需要的是有实际意义的实验效应,而不是通过增加样本量而得到的本来很小但统计上更显著可靠的效应。比如,判断16个人可以得到81.25%的正确率,这个正确率其实很高,在实际操作中是有意义的。而如果增加到比如160个人的样本,那么也许正确率只有60%就会在统计上显著的高于随机猜测概率50%。但后者的实际操作意义却很低。
第二个所谓阴蒂性高潮和阴道性高潮,原文作者只是想区分有无阴道性高潮,而并不是想区分阴蒂和阴道性高潮的差别。这个理由有点莫名其妙。第三个指控只是针对原文作者对结果的解释,根本无法推翻研究的结果和结论。
总之,冷月如霜的质疑并不都站得住脚。充其量只能说原研究可能存在一些问题,但完全没有办法证明原研究是错的。

二,更坏的影响是什么?
任何一个单独的研究都会有漏洞,特别是行为科学的研究。质疑研究存在的问题其实并无不妥,但这篇质疑文在果壳发表后却产生了一些很不好的影响。简单来说,很多人看到果壳发表了质疑文,并不看质疑论点是否站得住脚,就得出结论原研究是错的,是“民科”。还有很多人在微博上AT我这篇文章。虽然果壳是以热爱科学的名义召集来了很多读者,但说实话,很多人的判断力并不高。他们不是为了用科学更新自己的观念,而是为自己现有的观念找“科学”的注脚。最后导致了一个非常可笑的结果,很多人不相信发表在学术期刊上文献的结论,却相信非相关领域研究生的“解读”。
大多数人都是带着预设的观点读文章。特别是对于是否能通过步态看出性经验的敏感问题,很多人会感到不适,并先入为主的排斥。他们一旦看到果壳发表了“辟谣”文,他们甚至不会去看文章的内容就会认为自己的观点是对的。但是,这并不是科学的态度,甚至与科普的宗旨相悖。

三,该相信什么,该怀疑什么?
谣言粉碎机是果壳的招牌之一。其他主题站也会有一些“粉碎”性质的文章,比如这篇性情站的文章。这些粉碎谣言的文章在很多时候起到了好的作用,比如日本地震后的盐恐慌等。但什么要质疑,什么要相信,要根据质疑对象的来源有所不同。第一类是流传的科学谣言,比如吃茄子可以减肥。对这类问题要通过科学证据来反驳。第二类是媒体报道中对学术研究的过度解读。比如有调查发现喝红酒的量与寿命成正相关,媒体就得出结论多喝红酒就会导致长寿。对这类问题需要用科学的方法解释数据,告诉大家相关性并不代表因果关系。第三类是发表在学术期刊上的研究,对它的质疑则最好慎重。前面已经说过,学术文章都经过严格的同行评议。像样本量之类的小问题,如果该领域的专家认为是可以接受的,你拿来质疑的分量有多大?
那么,如果是在学术界如何质疑这个研究?只有通过发表新的论文。用更可靠的实验设计和数据表明之前的研究结果是错的,比如通过增加样本量,采用更客观的测量指标等等。通过这种同行评议的论文发表机制,才能保证科学理论的不断自我修正。而对于非学术界的人来说,更简单的方法自然是搜索是否有新的研究已经否定了前面的研究。而如果还没有反驳的文章发表,我的建议是保持怀疑的态度接受该研究的观点。因为只有这个研究才是在当前阶段最“可靠”的。

总之,质疑很容易,但论据充分有理有力的质疑却很难。特别是对于在学术期刊发表的文章,质疑更要谨慎。而对于果壳网的读者,培养科学的思维方式,能够判断哪些是可信、哪些是不可信的,才是最重要的。

本文由Synge授权(果壳网)发表,文章著作权为原作者所有。
推荐 1人推荐
50条评论

1/3   下一页

  • 1楼
    2012-03-05 13:45 闭眼守望

    杀~~

    评论
  • 2楼
    2012-03-05 13:49 0.618

    "他们不是为了用科学更新自己的观念,而是为自己现有的观念找“科学”的注脚。"

    这个还真难免啊。。。科学研究包容性比较强,基本上任何观点都能找到一些佐证。。。

    不过我最无语的是,每次写完文章,我明明是在讲一个科学研究,一堆读者评论是“同意”/“不同意”。从来没见过数学、物理文章下面会有读者的表态。。。都以为一些基于自身的自省就可以判断一个研究结论是否靠谱。

    先设立场,然后再找补实验的不靠谱之处,怎么着都能找到。

    评论
  • 3楼
    2012-03-05 13:53 Sheldon

    物理文章下读者的表态:看不懂

    评论
  • 4楼
    2012-03-05 13:58 Lithium42

    物理文章下读者的表态:直接看结论

    评论
  • 5楼
    2012-03-05 14:15 破丢

    可以把谣言“没有确切结论”之类的高亮一下。。免得粉碎机成了传播机

    评论
  • 6楼
    2012-03-05 14:48 greenswong

    写得犀利。

    评论
  • 7楼
    2012-03-05 14:58 子逸无涯

    物理文章下读者的表态:详情问老师

    评论
  • 8楼
    2012-03-05 15:06 eggcar

    被发表和引用跟文章的靠谱程度一点关系都没有,SCI照样有很SB的论文,同行审议只证明其基本研究方法被认可,而由方法得出结论的可信度要自己去判断…

    评论
  • 9楼
    2012-03-05 15:20 永远的大王

    好严肃。。。

    赶脚不适合性情。。。。

    评论
  • 10楼
    2012-03-05 16:03 DrakeXiang

    好文~
    大众的观点很不好掌握,而且经常受媒体宣传和读者自身倾向的影响,随波逐流人云亦云的是多数,能理性坚持自己看法的实在不多。
    科普是把复杂的问题简单化,但是科学的性质决定了简单化只是以偏概全,在信与不信的天平上,中点几乎是不可能找到的。在@维晨mistletoe日志中提到的”证实偏见“和”逆火效应“等都会使得普通读者对研究结果和科普文章产生误读。

    就此研究来看与其让众多如饥似渴的男人们竞相口传《走近科学:走路识浪女》最后再由谣言粉碎机出马辟谣,不如让公众从开始就对其保持偏于否定的态度。

    评论
  • 11楼
    2012-03-05 16:14 沉默的马大爷

    质疑不等于否定,可惜读者往往急于下结论,要么全盘接受,要么全盘拒绝。其实“悬而未决”才是前沿领域的常态吧。

    评论
  • 12楼
    2012-03-05 22:34 S-Kaelthas

    赞讨论
    顺路搬小板凳等@冷月如霜 的回复……

    PS:弱问下贵领域3.957精确点大概是个什么程度……俺们这行4分左右的著名奇葩plos one就常年出不靠谱的货…………

    评论
  • 13楼
    2012-03-05 22:37 冷月如霜
    引用@S-Kaelthas 的话:赞讨论
    顺路搬小板凳等@冷月如霜 的回复……

    PS:弱问下贵领域3.957精确点大概是个什么程度……俺们这行4分左右的著名奇葩plos one就常年出不靠谱的货…………


    我觉得所以synge君说得很好啊。我那篇的主要意思是“不要盲信这个研究的结果,因为里头有很多实验的细节值得商榷”,并不是全盘否定那项研究。

    评论
  • 14楼
    2012-03-06 00:48 cobblest
    引用@冷月如霜 的话:

    我觉得所以synge君说得很好啊。我那篇的主要意思是“不要盲信这个研究的结果,因为里头有很多实验的细节值得商榷”,并不是全盘否定那项研究。


    我觉得是不是也是不同学科的人对统计结果的理解不同……

    比如做fMRI的通常十几二十个被试就行了,甚至有的psychophysics只要几个人。但是做行为的一百多不算啥。我就常得向其他方向的人解释为啥我的被试数“那么少”。冷君评论里也有很多对此不明真相的群众……

    评论
  • 15楼
    2012-03-06 01:21 冷月如霜
    引用@cobblest 的话:

    我觉得是不是也是不同学科的人对统计结果的理解不同……

    比如做fMRI的通常十几二十个被试就行了,甚至有的psychophysics只要几个人。但是做行为的一百多不算啥。我就常得向其他方向的人解释为啥我的被试数“那么少”。冷君评论里也有很多对此不明真相的群众……


    不同学科对于统计数的理解应该是不同的。就我觉得,如果要一个理论具有普适性的话,那用来做研究的样本自然是多多益善(一来数量可以让个体带来的误差减到最小,二来人数越多,实验对象的代表性也越强)。不然论文也只能说明这个结果对于XX大学的多少名学生是成立的。放大到其他年龄层,其他职业,整个欧洲,整个世界,那就未必了。不过好的统计方法和实验设计可以做到即便样本数量小也能够有很好的说服力。

    评论
  • 16楼
    2012-03-06 01:25 吴师傅 评论
  • 17楼
    2012-03-06 01:50 沉默的马大爷
    引用@冷月如霜 的话:


    不同学科对于统计数的理解应该是不同的。就我觉得,如果要一个理论具有普适性的话,那用来做研究的样本自然是多多益善(一来数量可以让个体带来的误差减到最小,二来人数越多,实验对象的代表性也越强)。不然论文也只能说明这个结果对于XX大学的多少名学生是成立的。放大到其他年龄层,其他职业,整个欧洲,整个世界,那就未必了。不过好的统计方法和实验设计可以做到即便样本数量小也能够有很好的说服力。

    这个还是和具体的研究问题有关,如果现象本身在个体间的差异比较大,或者效应比较小,那么需要的样本就多一些,才能达到可接受的statistical power。
    关于样本代表性,像视觉加工机制这样的东西所有人都差不多,所以找什么样的人影响不大。社会心理学、文化心理学里面样本代表性就很重要了;尽管如此,目前重视得还很不够。曾有人讽刺现在的心理学是“中产阶级白人大二学生心理学”,因为被试基本来自于选修心理学导论的大学生。。。

    评论
  • 18楼
    2012-03-06 02:01 一库哟

    很早就像问一句,谣言粉碎机靠谱吗?有时候看到一些文章说服力不够啊

    评论
  • 19楼
    2012-03-06 08:58 非言语

    寻找真相比现在的无房无车男人追女朋友还难。非常认可@synge 的分析和论点,尤其是他对质疑的质疑。

    通常来说,发表在学术期刊上的文章都是经过别人质疑过的,因而还是具有一定公信力的。而读者可以选择相信与不相信,这时候问题的确出现了,因为人类大多数时候的思考都不是纯粹为了真实这样一个简单的目的,他们通常相信自己愿意相信的事实,而不愿相信自己不想相信的发现。

    爱之欲其生,恶之欲其死,这是人之常情。跟自己的观念越一直的发现,人就越容易相信,根本不怀疑,认为理所当然;跟自己的观念不一致的发现,人就容易怀疑,左看右看不顺眼,有点儿非要打到对方的冲动。因为,你自己持有的观念,通常对自己来说是有利的,如果科学发现阻碍了你的利益实现,再真的发现都是假的,都会在无意识或者有意识层面受到打压和其实,这里的你是所有的人。

    有一点是可以肯定的,那就是来自多个作者多个研究多个角度得到的结论是更靠谱的。单纯一篇论文的结果,需要慎重考虑。另外一点是,文章的解读是否适度,过度解读也是造成误解的重要原因。

    评论
  • 20楼
    2012-03-06 09:10 姬十三

    虽然这是对性情文章的吐槽,但更适合发布到“谣言粉碎机”或“一地果壳,或死理性派 小组……

    评论

你的评论

回复请先登录
Synge 脑科学工作者 Synge的新浪微博 发表于 2012-03-05 13:20

©果壳网    京ICP证100430号    京网文[2015] 0609-239号    新出发京零字东150005号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区