Command Palette
Search for a command to run...
Adam Tauman Kalai Ofir Nachum Santosh S. Vempala Edwin Zhang

摘要
正如面对难题的学生有时会猜测一样,大型语言模型在不确定时也会做出猜测,生成看似合理但实际错误的陈述,而非坦承自身的不确定性。这类“幻觉”现象即使在最先进的系统中依然存在,严重损害了人们对模型的信任。我们认为,语言模型产生幻觉的根本原因在于,其训练与评估机制倾向于奖励猜测行为,而非承认不确定性;我们进一步分析了现代训练流程中导致幻觉的统计学根源。幻觉并不神秘——它们本质上只是二分类任务中的错误。当错误陈述无法与真实事实区分开来时,预训练语言模型便会因自然的统计压力而产生幻觉。随后我们指出,幻觉之所以持续存在,是因为大多数评估方式的评分机制存在问题:语言模型被优化为“优秀的应试者”,在不确定时猜测反而能提升测试表现。这种对不确定回答的系统性惩罚,只能通过一种社会技术协同的解决方案来应对——即修改当前主流但存在偏差的基准测试的评分方式,而非引入额外的幻觉评估指标。这一变革有望引导人工智能领域走向更加可信的系统发展方向。