AI生成的伪造论文正在颠覆科学：我们还能相信研究成果吗？

曹娉 · 发表于 2024-11-13 11:36

作者：美捷登Daniel

人工智能（AI）的兴起为许多领域带来了前所未有的机遇，包括科学研究。然而，与这些优势相伴的，是威胁科学交流完整性和科学公信力的新风险。最近，Haider等人发表的题为《GPT-fabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation》的论文中（图1），揭示了AI技术带来的最令人担忧的后果之一：由大型语言模型（LLM），特别是ChatGPT，生成的伪造科学论文的泛滥。这一现象不仅破坏学术环境，还可能扭曲社会的证据基础，进而影响政策制定、公共话语以及科学本身的信誉。

图1. Haider等人发表的题为《GPT-fabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation》的论文（截图来自misinforeview）

一、GPT伪造论文的泛滥
文章指出，大量GPT伪造的论文正在进入公开的学术数据库，并且几乎没有经过同行评审。作者共发现了139篇此类论文（表1），这些论文都可以通过谷歌学术轻松获取，其中大部分发表在非索引期刊中。这些论文的传播凸显了两个相互关联的挑战：生成式AI工具的日益普及，使其能够逼真地模仿科学写作；谷歌学术这类的学术平台存在结构性弱点，使得这些虚假论文容易与真实研究一起被列出。

表 1. 使用 ChatGPT 欺诈性或未声明地在不同主题和场所发表的论文数量（表格来源misinforeview）

论文类别	计算机	环境	健康	其他	总计
被索引的期刊*	5	3	4	7	19
非索引期刊	18	18	13	40	89
学生论文	4	3	1	11	19
工作论文	5	3	2	2	12
总计	32	27	20	60	139

*被 Scopus、挪威科学期刊、系列和出版商登记册、Web of Science 和/或 DOAJ 索引。

作者将这些论文分为四个主要学科领域：计算机、环境、健康及其他领域（表1）。值得注意的是，这些领域的研究直接影响公共政策和社会问题。其中，健康和环境研究领域尤为容易受到操纵，因为公众意见和决策往往依赖于科学证据。例如，在气候变化或像COVID-19这样的公共卫生危机背景下，利用GPT伪造的研究进行的虚假信息传播可能对社会造成严重影响。

二、GPT伪造论文构成的威胁
作者提出了一个紧迫的问题，即所谓的“证据操纵”。与传统的科学欺诈不同，GPT生成的论文是一个完全不同的欺骗类别。这些论文看似结构严谨，但实际上并未包含任何真实的研究。尽管在研究中发现的某些GPT伪造论文由于语言公式化或引用不规范而易于识别，但许多论文展示出结构化的内容，并通过了审查。

文章讨论的一个关键问题是，这类论文的传播可能导致科学信任的危机。众所周知，科学建立在同行评审和严格验证的基础上，但正如Haider等人所指出的，即使是索引期刊——学术出版的黄金标准，也未能幸免于此类入侵。研究发现，有19篇伪造论文被发表在索引期刊中。这些虚假论文进入知名的学术期刊数据库，极大地增加了错误信息被当作有效科学的风险。

这个挑战因人们越来越依赖AI驱动的搜索算法（如谷歌学术使用的算法）而变得更加复杂。这些算法优先考虑数量和可访问性，而不是质量，这意味着GPT伪造的论文可能与经过同行评审的工作并列显示，且很难区分。鉴于许多普通读者、记者、政策制定者甚至一些学者可能不会详细审查每篇论文，误导性或完全错误的信息获得认可的风险很高。

三、科学公众信任的危机
这一趋势最深远的影响之一是科学公信力可能进一步被削弱。近年来，科学在许多有争议的辩论中被政治化——无论是关于气候变化、疫苗，还是公共卫生政策的影响。作者认为，GPT生成的论文很可能在这些信息战中被“武器化”，虚假信息被用来削弱公众共识，或导致对已确立科学事实的怀疑。
作者指出，问题不仅在于这些虚假论文的存在，还在于它们长期存在所带来的影响。即使被撤回，这类论文仍可能在各种数字库、影子图书馆或社交媒体中继续传播。事实上，正如在COVID-19疫情期间所见，撤回有时会加剧阴谋论，事与愿违。如果那些已经倾向于不信任科学机构的人遇到支持其观点的GPT伪造论文，这会进一步巩固他们的信念，并使得在重要问题上建立共识变得更加困难。
根据表2所示，由GPT生成的有问题论文正逐渐渗透到在线学术交流研究的大部分平台中。已发现这些论文出现在的平台包括ResearchGate、ORCiD、《人口治疗学与临床药理学杂志》（JPTCP）、Easychair、Frontiers、电气电子工程师学会（IEEE）以及X/Twitter。因此，即使它们从原始来源被撤回，也很难在其他平台上进行追踪、删除或标记。此外，除非进行监管，否则谷歌学术将使这些论文持续曝光，并且很可能不会被标注为问题论文。

表2.GPT生成的有问题论文正渗透至多种学术平台（表格来源misinforeview）

主题	1	2	3	4	5
环境	researchgate.net (13)	orcid.org (4)	easychair.org (3)	ijope.com* (3)	publikasiindonesia.id (3)
健康	researchgate.net (15)	ieee.org (4)	twitter.com (3)	jptcp.com** (2)	frontiersin.org (2)

注释：《国际开放出版与探索期刊》（ISSN: 3006-2853）
** 《人口治疗学与临床药理学杂志》（ISSN 2561-8741）

四、潜在的解决方案
Haider等人强调了需要采取多方面的措施来应对这一日益严重的威胁。他们建议，任何解决方案都必须整合技术、教育和监管策略，以达到预期效果。
1.技术
首先，作者建议实施更先进的检测工具。谷歌学术等学术平台需要开发更好的过滤机制，以区分经过同行评审的索引期刊和灰色文献。此外，他们建议将针对索引期刊的评估工具直接整合到搜索引擎中，使用户能够更轻松地评估所遇到论文的可信度。在理想的情况下，算法可以根据语言模式、元数据不一致或引用异常标记GPT生成的内容，但要实现这一水平的复杂性，仍需大量的技术创新。
2.教育
其次，教育在减轻AI生成内容风险方面发挥着关键作用。研究人员、学生和公众需要了解过度依赖AI生成信息的局限性和潜在危险。虽然AI工具可以在自动化某些任务方面非常有价值，但批判性思维和来源评估的重要性不容忽视。培养下一代研究人员能够辨别高质量作品和欺骗性论文，将是保持科学交流完整性的关键。
3.监管和伦理框架
最后，文章呼吁采取监管干预措施。从期刊出版商到搜索引擎，整个科研基础设施需要为确保其传播的材料符合严格标准承担责任。可能需要出台行业范围的法规，明确AI在科学出版中的使用伦理准则。此外，应该为期刊和学术搜索平台提供更强的激励措施，以实施更严格的审查程序，确保其数据库中研究的质量。

五、AI时代科学未来的反思
GPT伪造论文的兴起是生成式AI带来的广泛社会挑战的一部分。尽管AI具有推动人类知识进步和自动化复杂过程的巨大潜力，但其滥用可能带来同样广泛的负面后果。在科学研究的情况下，利害关系尤其重大。科学支撑着许多塑造我们世界的决策——从环境政策到公共卫生，再到技术创新。
在一个错误信息可以迅速在数字平台上传播的时代，科学记录的完整性比以往任何时候都更加重要。Haider及其同事通过识别GPT伪造论文的风险并提出潜在解决方案，为学术界作出了巨大贡献。但他们的研究也应当唤起公众的警醒。作为公民，我们依赖科学为我们提供关于生活世界的准确、可靠的信息。如果这种信任被削弱，后果将是严重的——不仅对学术界，对整个社会都是如此。
展望未来，必须齐心协力维护科学研究的可信度。这不仅需要技术上的改进，还需要重新评估我们在数字时代与信息的互动方式。我们必须认识到，虽然AI是一个强大的工具，但它也可能被用来制造怀疑和混乱。科学诚信的未来，甚至一个信息爆炸的社会的未来，取决于我们如何应对这一新兴挑战。
总之，Haider等人的研究揭示了一个迫在眉睫且复杂的问题，亟需立即引起关注。他们的分析呼吁研究人员、机构、政策制定者和公众共同认识到AI驱动的证据操纵的风险，并采取切实行动，保护科学交流的完整性。事实与虚构不分的学术世界，是我们绝对不能允许的。

参考资料：

misinforeview.hks.harvard.edu/wp-content/uploads/2024/09/haider_gpt_fabricated_scientific_papers_20240903.pdf
mp.weixin.qq.com/s/vCFJtxhNxMhKN-3-PCdImA
mp.weixin.qq.com/s/rZYp2rdtnfkD3nehKRAgVQ

AI生成的伪造论文正在颠覆科学：我们还能相信研究成果吗？

账号		自动登录	找回密码
密码			注册新账号

AI生成的伪造论文正在颠覆科学：我们还能相信研究成果吗？

晓木虫

AI生成的伪造论文正在颠覆科学：我们还能相信研究成果吗？