4194
需用时 08:23
【果壳网专访】“三傻”大闹科研坞:我们怎么钓出了那些水货?

目前,科学研究圈里每年发表的文章数量以百万计,它们刊登在数以万计的期刊上,或者发表在成百上千不同类型的学术会议上。

随着论文数量的增长,自然而然地催生了这样一些这些学术会议:它们质量堪忧,没有完备的论文评审过程,有些会议的组织者甚至根本不审核那些投稿的论文,只要你给钱,他们就能发。想参加这些会议?当然欢迎,不过,你得先交一定数量的会费。而且他们还会时不时地给该领域的研究者们群发“论文征集函”,盛情邀请研究者提交他们的论文——而且没有评审过程。低质量的论文,只为敛财的低质量会议,这些会议组织者们对此显然难辞其咎。

2005年,三个麻省理工学院计算机科学的研究生看不下去了。他们厌烦了这些水货会议发来的永无止境的“论文征集函”,决定开发一个“有意思”的小软件——两周之后,SCIgen诞生了。

这三个学生是MIT计算机科学与人工智能实验室的研究生丹·阿瓜约(Dan Aguayo)、杰里米·斯特里布林(Jeremy Stribling)以及马克斯·克罗恩(Max Krohn)(下图由左至右)。他们开发的小软件SCIgen能够随机选取文本库里的词句,并自动生成一篇基本上是胡说八道的计算机科学论文,还顺带产生一些图表和引用文献——当然也是假的。

当年还是MIT计算机科学与人工智能实验室学生的三位小哥,可是钓起了学术圈的一条大鱼。图片来源:pdos.csail.mit.edu

2005年4月,他们把一篇SCIgen生成的论文投给以接受水货论文著称的WMSCI(World Multiconference on Systemics, Cybernetics and Informatics,世界系统、控制和信息理论多元大会)。虽然“论文”第一眼看上去像模像样,不过如果仔细阅读,你会发现它根本就是在胡扯。

然后没过多久他们惊喜地得知,论文被接受了!

他们把SCIgen和它生成的论文发到了互联网上,还顺带加上WMSCI大会接受这篇“论文”的故事,好好地黑了一把质量低劣的会议。一时间,他们的故事引起了轩然大波——人们注意到,有些会议的评审过程水平之低,简直令人咋舌。

这一事件引起了媒体的极大兴趣;在科研圈,它也吸引了广泛的关注。由于媒体长篇累牍的报道,WMSCI撤回了对他们的邀请。不过他们三个用筹集到的资金 ,跑到大会的地点旁边开了一个假的分会场,并用假身份做了三个内容是由机器随机生成的报告。后来,因为被揭发论文评审过程实在太水,IEEE(Institute of Electrical and Electronics Engineers,电气电子工程师学会)撤销了对WMSCI资助。

从那以后,SCIgen以及它的三位研发者们一次看似搞笑的举动,对科研圈产生了深远的影响:更多人开始注意到,有些会议完全是冲着钱去的,根本不关注论文的质量问题。在这十年间,一直有人给他们发邮件称,SCIgen生成的假论文又被哪些评审质量堪忧的会议接受了。三位软件研发者也许最开始只是为了报复一下给自己发垃圾邮件的水货出版商,而不知不觉十年过去,SCIgen已经成为了揭发水货会议的有力工具。

现在,三位开发者已经走上了不同的人生道路。三人都在互联网公司工作,而今年正值SCIgen发布10周年,于是他们再次一起推出了新的软件——SCIpher。

杰里米告诉果壳科学人,不同于它的前辈,SCIpher是一个加密软件,可以把一段信息伪装成一封某出版商发来的“论文征集”邮件——当然,内容是随机生成的。软件同时带有一个解码器,可以把生成的内容转换为原始信息。他们希望用这种方式提醒人们更隐蔽地交流——顺便吐槽一下那些水货会议发来的垃圾征稿邮件。

果壳科学人在SCIgen 10周年之际专门采访了软件的三位作者之一,杰里米·斯特里布林,让他来谈谈他和小伙伴们与SCIgen背后的故事。

果壳科学人:十年前,你们仅仅花了两周就写出了SCIgen,简单介绍一下它吧。

杰里米:SCIgen是一个自动生成计算机科学研究“论文”的软件。它不单能生成文本,还能创建表格、图片以及引用文献。它写出的“论文”粗看起来不明觉厉,但你如果仔细看的话,那其实就是一堆完完全全的废话。SCIgen的目的是生成“有意思的”论文,而不是“语法正确”的文本。当然你能找到不少生成正确语法的软件,不过SCIgen并不依赖复杂的算法来纠正文本的语法。

它的代码是我们三个一行一行码出来的。当时我们都还是苦逼的研究生,有不少真正的研究要做。不过那两个星期我们将之抛诸脑后,专心开发SCIgen。我们用Perl脚本语言(一种程序语言)开发它,有时间的时候还会想想得把哪些荒唐的、不明觉厉的单词和句子塞进那些虚假的论文里。

然后SCIgen就能搅和搅和数据库里的东西,挑出一些组合出来看着还不错的单词和句子,接着把它们揉在一起,让“论文”看起来像个真正的论文。如此而已。

果壳科学人:为什么想开发这样一个软件?

杰里米:我们成天收到各种各样的垃圾邮件,想让我们给某某会议提交论文之类的。不过我们知道,这些会议的质量相当水。举个例子吧,当时我们实在是被WMSCI发来的垃圾邮件搞烦了。我们早就听说这个会议接受质量很低的论文,所以,我们就想知道这个水平不高的会议会不会接受一篇机器生成的、满篇胡话的论文呢?

要让假论文被这种大会接受,最重要的事情就是让论文“看起来是真的”。它得和真正的论文一样,有正确的格式、段落划分、图表和文献等等。如果有人仅仅瞄一眼论文而不是仔细阅读,他/她可能发现不了假论文与真正论文的区别,那就行了。

然后,我们有了SCIgen。

果壳科学人:2005年,WMSCI接受了你们投去的SCIgen生成的“论文”?

杰里米:是的,那简直是一场刺激的冒险。我们先是给这个水货大会投去了SCIgen生成的论文《Rooter:有关接入点和冗余量典型统一的方法论》(Rooter: A Methodology for the Typical Unification of Access Points and Redundancy)。2005年,就在会议开始的前几个月,对方发来邮件通知我们,论文以“未审核”的形式被接受了。而最有意思的部分在于,这封邮件我们居然是在垃圾邮件里找到的——如果论文的“接受通知”被系统认为是垃圾邮件,你肯定得想想是不是有什么地方不太对。

不可能的事情就这么发生了。虽然我们很想带着SCIgen和那些机器生成的胡说八道的论文去佛罗里达参加大会,但那时我们还只是在波士顿的普通研究生而已,资金不太充裕。然后我们就尝试着在网上公布SCIgen的故事以及WMSCI与我们的故事,并尝试着接受捐款。

接着就是互联网的神奇之处了:各大媒体争相报道,CNN头条、BBC头条……我们在三天内收到了2,400美元的捐款。当然,声名在外是也把双刃剑。当我们凑够了参加大会的资金时,为时已晚:大会组织者告诉我们,他们的会议(spamference)不再欢迎我们了。

果壳科学人:但你们还是去了佛罗里达?

杰里米:我们用筹措的资金去WMSCI的旁边开了一个假的分会场:《第六届北美方法论、理论以及信息论座谈会》(The 6th Annual North American Symposium on Methodologies, Theory, and Information)。我们报告了假的论文,使用假的海报,还使用了假身份,戴着假胡须和假头发,装作是来自Analogic实验室的一帮科研人员。宣传传单的内容也是随机生成的。

在会议上丹·阿瓜约假扮的佛朗兹·T·神黑天男(Franz T. Shenkrishnan)博士。图片来源:pdos.csail.mit.edu

我们使用假身份分别做了文献报告——内容是SCIgen随机生成的。期间来听我们演讲的人有进有出——大部分是离场的。不过也许他们仍然觉得自己在听WMSCI的报告也说不定。而我个人最爱的部分是用假发假胡须扮成另一个人,然后在WMSCI的组织者眼皮底下大摇大摆地走来走去。

果壳科学人:显然,你们因为揭露水货会议的壮举获得了巨大的关注。有没有考虑过开发其他学科的SCIgen?中间有什么难点吗?

杰里米:总是有人问我们类似的问题。所有人都想拥有他们所研究的学科的SCIgen版本。不过很不幸,要为一个新的学科写出类似程序是一个大工程,我们也没有编写其他学科的SCIgen的打算。虽然其他科学领域的SCIgen与现在的版本在本质上不会有太大区别,不过最难的部分在于为这个新程序编写可供其使用的语句和单词的语句库,这样程序才能从中随机挑选,并组合成一篇有模有样的“论文”。

果壳科学人:就在最近,由于曾经接受过SCIgen生成的论文,施普林格(Springer)专门发布了“SciDetect”来检测论文是否是SCIgen生成的。对此你们怎么看?

杰里米:他们发布这么一个程序,而不是制定更好的政策让所有被接受的论文有更好的评审过程,这事儿本身就挺搞笑的。虽然我很确定稍微改改SCIgen的代码就能通过SciDetect的检测,不过我们没闲到那个地步。

而且我觉得SciDetect还是有用处的:它可以让那些为了丰富自己的论文发表数而故意使用SCIgen生成假论文提交的人显形。SciDetect的确检测出了这么一帮人,他们希望靠这种手段丰富自己的简历,以期找到更好的雇主或者科研机会。

果壳科学人:研究者用SCIgen生成的假论文投稿的事情仍时有发生,不过你觉得未来会有程序撰写出的真正的论文吗?这会改变现有的科研模式吗?

杰里米:我觉得这不太可能,起码SCIgen做不到。SCIgen使用的是人类手写的语句库,它只是从这些语句库里“选择”语句,而非自己一字一句地“撰写”。所以,类似这种原理的软件基本不可能写出“真正的”、能被顶级会议接受的那种论文。同时,我们距离让计算机自己产生一个新的研究思路这种类似人工智能的东西,还有相当长的一段路要走。

不过,让程序归纳总结已有的研究数据,然后生成一篇研究论文,倒是有一定可能,而且目前有些程序已经能写出短小的段落了。

果壳科学人:有没有遇到过被SCIgen揭露过的人或者组织找你们麻烦的事情?

杰里米:虽然有挺多人不喜欢SCIgen或者被它揭露过,不过我不记得有什么针对我们的负面评价或者行动。最糟糕的事情反而是那次WMSCI撤回了“Rooter论文”,并且发现了SCIgen。我们收到的所有来信都是鼓励或者支持的态度,而且我觉得你很难站在反对SCIgen的立场组织辩词。

果壳科学人:SCIgen 10周年之际,你们发布了一个全新的软件“SCIpher”。能简单介绍一下吗?

杰里米:SCIpher是一个加密解密软件。它能够加密用户输入的信息,并将其转换为一篇“论文投稿征集”邮件。这种邮件一般都是学术会议给研究者们群发的,目的是让研究者给他们投稿。

我们的想法不仅仅是加密一段信息,而是试图把它转换成一封普通邮件——这样能确保窥探你邮件内容的家伙没法分辨里面是不是包含了加密的信息。毕竟,这种“征集论文”的邮件不会受到太多关注——没人会认真看水货会议发来的垃圾邮件吧。而在SCIgen 10周年之际发布这个小软件,一方面是周年纪念,另一方面则是因为,目前通讯监控是一个流行且重要的课题。我们希望它能帮助人们更隐蔽地交流。

编者按:我们使用“guokr: science and technology are fun”作为原始信息进行加密,得到了一篇相当搞笑的“第十一届IIABT线性时间与社会对称性研讨会”的征稿函。当然,如果不满意加密过后生成的征稿函,可以再生成一次。SCIpher生成的内容是随机的,而且不尽相同——共同点是它们都看起来不明觉厉。

如果把征稿函丢到解码器里,就能解码这封垃圾邮件的原始内容了,在这里可以尽情尝试。

里面的大学名字目前所看到的都是真实的,不过那些“教授”的名字就和大学没什么关系了。有意思的是,这封随机生成的邮件里,假会议的组织者有一位来自天津大学的Sara Blanchard,“会议”还曾在中国丹阳举办过。

附上加密过的“征稿函”如下:

果壳科学人:回头看看,你觉得SCIgen有没有对你们三个的事业与生活产生什么改变?

杰里米:我们目前都在软件公司工作。马克思和我是同事,在Keybase公司工作。我们的公司在做一些密码学的事情,我想这和SCIpher有些联系。丹则是在思科(CISCO)工作。

虽然我不觉得SCIgen直接影响到了我的职业规划,不过那些与SCIgen有关的经历与回忆的确给了我们一个机会,让我们和世界上各种有意思的人交流 。而且我们还得到了不少关于集资的经验。我想,这就是SCIgen带给我的。

果壳科学人:现在你们之间的联系多吗?还会在一起讨论SCIgen吗?

杰里米:我们偶尔会相互发邮件谈谈它。说实话,我们已经很久没更新SCIgen了。SCIpher是全新的代码,所以说起来它应该算是一个全新的项目。我和丹在一座城市,而马克思则在另一座城市,所以现在我们真正在一间房子里坐下来说说话的机会并不太多。不过最近不是正好10周年嘛,我们之间的邮件来往挺频繁的,而且我们都在一个Reddit AMA(作者注:Reddit 的“Ask Me Anyting”板块,用户可以在不同的组里向组织者提任何问题)里,相当有意思。

果壳科学人:未来你们和SCIgen有什么计划?

杰里米:直到2025年SCIgen二十周年之前,我们还没有切实的计划。不过软件代码都是开源的,所以我希望有人能继续更新它们,并且做一些有意思的事情。

我还希望SCIgen能提醒研究者们注意,有些会议的水平实在太低了。这些会议存在的目的就是为了赚钱,根本不重视自己发表的研究的质量。希望某些会议的组织者吸取WMSCI的教训,制定有效的政策来保证其发布的论文的水平。

而且我很高兴看到,我们应该是超额完成了最开始的目标。(编辑:球藻怪 wuou)

文章题图:pdos.csail.mit.edu

The End

发布于2015-05-15, 本文版权属于果壳网(guokr.com),禁止转载。如有需要,请联系果壳

举报这篇文章

Jerrusalem

环境工程硕士,果壳科学编辑

pic