250 万篇生物医学论文审计揭露虚假引用激增
一项针对 250 万篇生物医学学术文献的大规模审计发现,近 3000 篇论文包含伪造参考文献。这项研究由哥伦比亚大学人工智能研究员马克西姆·托帕兹等人主导,结果于 5 月 7 日发表在《柳叶刀》杂志上,是首项评估生物医学领域伪造引用规模的学术报告。 研究人员构建了一套自动化流程,筛查了 2023 年 1 月至 2026 年 2 月间 PubMed Central 数据库中发布的论文。系统利用大型语言模型比对参考文献的标题与通过唯一标识符(DOI 或 PubMed ID)检索到的实际论文标题,并在四大学术数据库中验证其存在性。若无法匹配,则判定为伪造。 分析结果显示,仅被标记为包含伪造引用的论文就高达 2810 篇,其中大部分包含一两个虚假引用,另有 246 篇包含三个或以上。数据显示,此类污染问题正急剧恶化,2025 年包含伪造引用的出版物数量是 2023 年的 12 倍。尽管这是一项保守的低限估算,但研究团队认为,问题的激增很可能与生成式人工智能的滥用有关。虽然尚不确定伪造是由计算机还是人为操作,但伦敦数字科学公司的科学计量专家凯瑟琳·韦伯 - 博耶指出,手动抽查证实了大部分 flagged 案例确为伪造。 专家警告,由于部分数据库本身不可靠,实际受影响论文数量可能远高于此估计。这一发现揭示了科学文献诚信面临的严峻挑战,表明伪造引用正在迅速污染生物医学研究领域。
