HyperAI

6 个月前

一项新研究揭示，ChatGPT在用于学术文献综述时，无法识别已被撤稿或存在严重问题的论文，甚至对错误信息给出肯定回应。该研究由英国阿伯丁大学的Mike Thelwall教授与Irini Katsirea博士共同完成，发表于《Learned Publishing》期刊，是“不可靠科学：解析主流媒体误报影响”项目的一部分，该项目自2024年10月启动。研究团队筛选出217篇曾被撤稿或存在严重问题、但具有高网络关注度（高Altmetric分数）的学术论文，要求ChatGPT对每篇论文的质量进行30次评估，共生成6510份报告。结果令人担忧：所有报告均未提及这些论文已被撤稿或存在错误，反而有190篇被评定为“世界领先”或“国际优秀”级别。对评分最低的论文，ChatGPT的批评仅集中在学术质量薄弱，而非其撤稿或数据造假等问题。仅有5篇论文被标记为“有争议”，但未指出其可靠性问题。研究还进一步测试了ChatGPT对具体陈述的判断能力：从这些被撤稿论文中提取61条主张，要求ChatGPT判断其真伪。结果显示，它在三分之二的情况下给出“是”或肯定性回答，其中包括一条已被证实错误超过十年的陈述。研究团队强调，该结果凸显了在学术研究中使用大型语言模型时，必须对生成内容进行严格验证。Thelwall教授表示，结果令人震惊，ChatGPT无法识别撤稿论文的现象令人担忧。他呼吁AI开发者改进系统，同时提醒用户：即使AI回答听起来可信，也绝不能盲目信任。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

ChatGPT做文献综述存隐患：竟忽视撤稿信息与错误

相关链接

Command Palette

ChatGPT做文献综述存隐患：竟忽视撤稿信息与错误

相关链接

Command Palette

ChatGPT做文献综述存隐患：竟忽视撤稿信息与错误

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟