警惕:大量低质量AI生成的生物医学研究论文涌现
发表在《PLoS生物学》杂志上的一项研究警告称,科学文献面临被大量低质量的生物医学研究论文淹没的风险,这些论文基于公开可用的数据集,使用人工智能(AI)工具生成,并作出误导性的健康声明。研究分析了超过300篇基于美国国家健康与营养检查调查(NHANES)数据集的论文,发现这些论文大多采用相同的模板,将单一变量(如维生素D水平或睡眠质量)与复杂的疾病(如抑郁症或心脏病)联系起来,而忽视了这些疾病的多因素性质。 研究的主要作者马特·斯皮克是位于英国吉尔福德的萨里大学的一名生物医学科学家。他指出:“我们突然发现这类公式化的论文出版率激增,可能很容易是由大型语言模型生成的。”共同研究者查理·哈里森则进一步解释说,这种做法类似于为了通过考试而不断尝试答题,只保留正确答案并剔除错误的部分。“这基本上就是在挑选数据,”他说。另一位同意该观点的研究人员伊奥纳·艾琳娜·克里斯蒂亚表示,这类论文似乎都遵循着某种“固定模式”生成,需要系统性的评估来确定问题的严重性。 NHANES是一项长期进行的调查,收集了数以千计的美国人的健康、饮食和生活方式数据。这些数据集可以轻松地输入到编程或AI系统中进行分析,在过去两年中导致基于NHANES数据的研究数量激增。2024年,已有超过2,200篇关联研究论文基于NHANES数据发表,而今年迄今为止已发布了超过1,200篇。斯皮克及其同事研究了2014年至2024年间发表的341篇基于NHANES数据的论文,这些论文分布在由Frontiers Media、Elsevier和Springer Nature等出版商生产的147种期刊上。 研究人员呼吁学术界和出版机构提高警惕,加强对这类研究的审查,防止低质量论文误导科学研究方向。他们认为,当前的问题在于部分研究者对数据的处理方式过于机械,没有充分考虑数据的复杂性和多因素影响。此外,论文的审稿机制也需要改进,以识别那些可能由AI自动生成的研究成果。 这一现象引发了广泛讨论。关于AI是否应该撰写科学论文,《自然》杂志的一项调查显示,科研人员对此意见不一。一些人认为,AI可以在数据分析和初稿写作方面发挥辅助作用,但最终需要人类专家进行审核和验证。另一些人则担心,AI生成的论文可能会进一步降低科学研究的质量和可信度,尤其是在没有透明披露AI参与的情况下。 业内人士对这一现象表示担忧。有观点认为,这一趋势反映出科研领域的浮躁和急功近利心态,同时也暴露出学术评审制度的漏洞。萨里大学和阿伯里斯特威斯大学的研究团队希望他们的研究能够引起科研领域的重视,推动更加严格的审查机制和更高的透明度标准,以确保科学文献的可靠性和权威性。