研究揭示:13.5%的2024年科学论文可能借助了大型语言模型
自从大型语言模型(LLM)如ChatGPT和Google Gemini问世以来,这些AI工具在生成近似人类水平的写作方面日趋成熟,使得区分完全由人类撰写的内容与经过AI修改或完全由AI生成的内容变得越来越困难。这一现象在学术界引发了广泛关注,因为AI生成的内容可能已经悄无声息地渗透到了同行评议的论文中。 为了揭示LLM在学术写作中的影响程度,一群来自美国和德国的研究人员分析了超过1500万篇PubMed上的生物医学论文摘要,以确定是否有特定的词语选择显示出LLM的影响。研究结果显示,自LLM出现以来,学术文献中某些风格化的词组使用频率显著增加。据估计,2024年发表的文章中至少有13.5%部分或全部经过LLM处理。这项研究发表在开放获取期刊《Science Advances》上。 此前,量化LLM在学术写作中崛起的努力受限于依赖人工和LLM生成的文本集。这种方法可能会引入偏见,因为它需要假设科学家使用哪些模型以及如何具体引导这些模型。为了避免这些限制,研究人员采用了“疫情前”与“疫情后”的比较方法,类似于COVID-19对公共健康影响的研究。后者通过比较疫情期间前后超额死亡率来推断疫情的影响。在这项新研究中,研究人员分析了LLM出现前后超额词汇使用的模式变化。 具体而言,研究人员发现,自LLM公开发布以来,学术论文中的超额词组从以前的内容词(如名词)转向了更多风格化和修饰性的词语选择。例如,“showcasing”(展示)、“pivotal”(关键的)和“grappling”(应对)等词语的使用频率显著增加。通过对每个超额词语进行手动标注,作者发现2024年前,超额词组中有79.2%是名词;而在2024年,有66%变为动词,14%为形容词。 此外,研究还揭示了不同研究领域、国家和期刊之间在使用LLM方面的显著差异。例如,某些领域的论文更倾向于使用LLM生成的内容,而不同国家的科研人员在使用LLM的频率上也存在差异。 这些发现对于维护学术出版物的准确性和完整性具有重要意义。许多学者认为,虽然LLM可以辅助科研工作,提高效率,但其广泛使用可能导致研究内容的同质化和质量下降。此外,过度依赖LLM还可能削弱科研人员的独立思考能力。 这项研究的作者之一查尔斯·布鲁(Charles Blue)表示,他们希望通过这项研究提醒学术界关注LLM带来的潜在风险,并呼吁制定更加严格的出版标准,以确保科研成果的真实性和可靠性。《Science Advances》是一本开放获取的顶级国际期刊,旨在推动科学研究的透明度和可访问性。 这项研究不仅揭示了LLM在学术写作中的普及程度,还为未来的研究提供了宝贵的数据支持,帮助学术界更好地理解和应对这一趋势。