科学家警告 AI 生成虚假引文泛滥科学文献
科学家警告,生成式人工智能在科研写作中的广泛使用正导致虚假引用泛滥,严重威胁学术文献的真实性。一项针对数百万篇论文的大规模审查发现,仅 2025 年一年,在 arXiv、bioRxiv、SSRN 和 PubMed Central 四大科学存储库中,就发现了约 14.69 万条“幻觉引用”,即完全不存在的文献来源。 这项研究由研究团队对 250 万篇论文中的 1.11 亿条引文进行了自动与人工双重核查。结果显示,超过 95% 的引用可以被匹配到真实出版物,但在修正拼写错误后仍有部分无法确认的标题。通过对比 2023 年人工智能大模型普及前后的数据,研究人员发现虚假引用在 2024 年中后期呈急剧上升态势,这表明问题主要源于大语言模型,而非人类笔误。 大模型基于概率预测生成文本,常能编造出听起来合理但内容虚假的参考文献。这种“幻觉”不仅发生在科研领域,也渗透至政府报告和法律文件。值得注意的是,刚起步的研究人员和小团队受此影响最大,部分人在引入 AI 后生产力看似提升了三倍,却同时嵌入了大量虚假引用。此外,这些错误引用往往不成比例地归功于那些已有名气的男性学者,可能进一步加剧科学界认可度的不公。 目前的学术防范机制存在明显漏洞。尽管 arXiv 等预印本平台有审核机制,但估计仍有近 79% 的虚假引用通过了审核并公开。研究团队指出,若无有效干预,这种系统性错误将侵蚀科学发现的可靠性,并误导公共政策与公众认知。专家呼吁加强期刊编辑、同行评审及平台审核力度,以遏制 AI 生成错误对科学体系的侵蚀。
