人工智能论文泛滥:剽窃新风险如何挑战学术诚信?
人工智能生成的科研论文正引发关于“剽窃”定义的新争议。今年1月,韩国科学技术院(KAIST)研究人员拜永俊·帕克收到两位印度学者邮件,称一篇由AI工具“AI科学家”生成的论文在方法上借鉴了帕克2022年发表的研究,但未注明出处。该论文虽未正式发表,但已在线发布,属于2024年由东京Sakana AI公司推出的全自动科研系统成果。 “AI科学家”能自主提出研究构想、编写代码、运行实验并撰写论文,全程由大语言模型驱动,明确标注为AI生成。帕克发现,尽管论文未直接复制其文字,但其提出的扩散模型架构与自己关于训练优化的研究在核心方法上高度相似,令他震惊。 随后,印度科学研究所的塔伦·古普塔和丹尼什·普鲁蒂展开调查,发现多篇AI生成论文存在类似问题——虽未抄袭原文,但实质性地复用了他人研究思路,且未标注来源。他们认为,这构成了“思想剽窃”,尽管AI无主观恶意。他们在2025年7月发表的论文获计算语言学协会会议“杰出论文奖”,但该结论遭“AI科学家”团队强烈反驳,称其指控“毫无根据、夸大其词”。 争议焦点在于:AI系统基于海量已有文献训练,其生成内容自然会融合前人思想,但如何界定“合理借鉴”与“剽窃”?目前尚无统一标准。柏林应用科技大学的剽窃研究专家德博拉·韦伯-沃尔夫指出,传统剽窃指文字复制或改写,而“思想剽窃”更难识别,也难以自动化检测。 研究者们通过专家评审发现,在36篇AI生成论文中,12篇被评出与已有研究存在方法层面的“高度重合”(评分4或5),若计入未回复的作者,比例达36%。其中一篇AI论文甚至通过了顶级机器学习会议ICLR的研讨会同行评审,被Sakana AI称为首篇通过评审的AI生成论文,但其核心贡献被指源自2015年工作,且未引用。 尽管部分专家如佐治亚理工学院的本·胡珀认为应引用但不构成“剽窃”,帕克则坚持其方法高度相似,应视为剽窃。而AI科学家团队强调,AI系统缺乏引用意识,引用不全属常见现象,不应等同于剽窃。 学者们普遍认为,当前学术界对“剽窃”的定义仍以人类故意欺诈为标准,但AI生成内容的复杂性要求重新审视这一概念。正如韦伯-沃尔夫所言:“剽窃的本质在于未正确归因,无论是否出于恶意。”随着AI科研能力提升,建立新的学术诚信标准已刻不容缓。
