说起PubMed,很多小伙伴都非常熟悉,这应该算是国内最常用的生物医学相关SCI文献检索数据库,实验室的小白们一开始用的基本都是它。
最近,Nature的一篇报道文章称,就是这样一个广受好评的文献检索集大成者,被一款名为Papermill Alarm的软件工具查出,至少有1%的论文可能出自论文工厂。
1%是个什么概念呢?根据PubMed官网显示,该数据库收录了超过3400万篇生物医学文献,“至少1%”就意味着有超过34万篇论文可能涉嫌造假。
“这个数据太高了,令人担忧。”学术打假人Smut Clyde感叹道,“这些垃圾论文确实会被引用,人们利用它们来支持自己没有出路的研究项目。”
另一位学术打假人Elisabeth Bik则认为,PubMed上出自论文工厂的文章真实数量可能更高,“这些论文会损害科学的声誉和我们对研究论文的信任。”
近年来,被期刊撤销的论文数量不断增加,这些撤稿数据背后,论文工厂扮演了重要角色。日渐规模化、工业化的学术作假手段正在侵袭科学界,打击论文工厂迫在眉睫。
有学术造假行为,就有打假人的出现。他们与论文工厂之间展开了一场持久战。
多年来,Clyde一直在追踪学术不端行为的证据。与其他学术打假人一起,他标记了数百篇可能是论文工厂生产的文章。这些论文工厂大量生产假学术论文,然后卖给有需要的研究人员。
出版商已经撤回了许多可疑论文,并采取措施阻止期刊接收论文工厂生产的投稿。但问题仍然存在。
Clyde只是从事这种打假工作的众多研究人员中的一员。他们通常是把学术打假作为主要工作之外的一种消遣,所以喜欢用化名进行打假。而有些人则不同,比如Bik和分子肿瘤学家Jennifer Byrne,他们选择实名打假。
今年4月,Clyde的电子邮件地址出现在Research Square服务器上的一篇预印文章中,文章描述了一家论文工厂。这篇文章的作者名叫David Bimler,他是一名退休的心理学家,曾在新西兰梅西大学工作。
在确认Clyde和Bimler是同一个人后,Nature采访了此人,谈论关于论文工厂等问题。
这篇发表在预印本的文章引起了轩然大波。Bimler在文中指出,从2015年到2022年间,有800多篇可疑的化学领域的论文出自同一家论文工厂,这些论文有图像重复、奇怪的措辞、可疑的电邮地址、无意义的引用等特点,并且都声称金属有机框架材料具有杀灭癌细胞或抑制炎症等作用。
“我很惊讶,居然有那么多论文都是关于高级化学和医学应用交叉的。”Bimler表示,金属有机框架确实有一些奇妙的物理特性,所以人们才会对它们如此热衷。但是,认为它们可能具有医学特性的想法是极其牵强的,而这些期刊却接收了数百篇关于它们的论文。
比如2021年初,Royal Society of Chemistry Advance期刊撤回了69篇涉嫌学术造假的论文,这些论文都没有共同的作者或机构,但是文中的图标和标题却惊人地相似。官方声明表示,该期刊也是这场“规模学术造假”骗局中的受害者。
该期刊执行主编Laura Fisher意识到,一些论文工厂正在大量生产伪科学文章。
Nature的一项分析发现,自2020年1月以来,各大期刊已经撤回了至少370篇与论文工厂有关的论文,预计未来还会有更多的论文被撤回。
之所以出现这种文献清理行动,很大程度上是因为学术打假人公开标记了他们认为来自论文工厂的可疑论文。
编辑们非常重视这一问题。以至于2020年9月,伦敦的出版伦理委员会(COPE)举办了一个论坛,专门讨论关于“论文工厂系统性地操纵出版过程”这一话题。
Bik是论坛主讲嘉宾,她曾在美国斯坦福大学医学院工作了15年,后来成了一名职业学术打假人,专门调查各类论文图像重复问题以及可能存在的学术不端行为。Bik认为,在文献中还有数千篇这样的论文。“这么多论文都是假的,太令人叹息了。”
根据Nature的统计,到2021年3月,被这些学术打假人列为可疑论文的名单加起来总共有1300多篇。大概约有26%的文章已被撤回或贴上了密切关注的标签,还有许多依然在被调查中。
Nature统计,2020年1月以来,被学术打假人声称出自论文工厂的370多篇撤稿,其作者都来自医院。
2021年7月,Journal of Cellular Biochemistry撤回了129篇来自中国的论文,甚至还专门出了一期增刊Supplement Retraction Issue——一本撤稿论文的合集。尤其令人震惊的是,这里面的所有论文都来自医院群体。
该期刊主编、德国美因茨大学教授Christian Behl甚至还特意写了一篇社论,来解释这次的增刊行为,并对论文工厂表示谴责。“最近,论文工厂成了热议话题,出版商、编辑、评审人等都对这个话题非常关注。论文工厂已对科研诚信造成巨大的威胁。”
美国布拉德利大学的图书管理员Xiaotian Chen说,医生是一个特殊的目标市场,因为他们通常需要发表研究论文来获得晋升,但他们在医院太忙了,真的没有太多时间做科学研究和写文章。
问题论文的普遍存在,导致一些期刊编辑怀疑中国医学研究人员提交的论文。2021年2月,Molecular Therapy的一篇社论说,“这种‘问题论文’的数量不断增加,正在严重破坏中国学者从事科研的可信度,并日益使人们对该地区的科学规范性产生怀疑。”
全球最大的科学出版商Elsevier出版服务部门负责人Catriona Fennell指出,出版行业有组织的造假问题并不新鲜,也不仅仅局限于中国。
她对Nature说,“我们在其他几个国家也发现了工业化造假的证据,包括伊朗和俄罗斯。这已经是一个全球性的问题。”
出版商一直在与学术造假作斗争。许多出版商也会使用软件和其他方法来帮助检测欺诈行为和发现造假论文。例如,用一些手稿处理系统就可以检测并标记出来自同一台计算机的许多投稿。
Papermill Alarm的开发者、英国伦敦学术数据服务公司Clear Skies的主管Adam Day则表示,“它分析文本的方法是最新的。”
Papermill Alarm可以海量分析科学论文的标题和摘要,并检测出与造假文章中相似的文本内容,简直就是造假“克星”。
该工具使用一种深度学习算法,将所投文章标题和摘要中使用的语言与已知来自论文工厂的文章进行比较。这一比较是基于由Bik和Bimler(也以化名Smut Clyde闻名)等研究科研诚信的人汇编的论文工厂文章列表。该工具使用交通信号灯模式,给与已知论文工厂文章有很多相似之处的论文分配红色旗,给那些有个别相似之处的论文分配橙色旗,给那些没有相似之处的论文分配绿色旗。
“它不是钓鱼竿,而是像一张渔网。”Day如此评价这款文本分析工具。
其出色功能引起了一些出版商的注意。目前有六家出版商表示,有兴趣使用Papermill Alarm来筛选提交的投稿,其中就包括知名独立学术出版公司SAGE,Day在那里担任数据科学家。
轻松将潜在的造假论文“一网打尽”正在变成现实。这样一款论文检测工具的确让期刊编辑受益,但要说明的是,该软件并不能明确指出一篇论文是否造假,但能够筛选出需要进一步调查的有问题的文章。
https://www.nature.com/articles/d41586-022-02997-x
https://www.nature.com/articles/d41586-022-02099-8
https://www.nature.com/articles/d41586-021-00733-5
https://www.nature.com/articles/d41586-020-01363-z