推理模型是否更容易产生幻觉?
Yao, Zijun ; Liu, Yantao ; Chen, Yanxu ; Chen, Jianhui ; Fang, Junfeng ; Hou, Lei ; Li, Juanzi ; Chua, Tat-Seng
发布日期: 6/1/2025

摘要
最近发展起来的大规模推理模型(LRMs)在解决复杂任务时表现出强大的长链推理(CoT)能力。然而,这些大规模推理模型主要通过在形式化推理任务上的后训练开发而成,因此它们是否能将推理能力泛化以减少事实检索任务中的幻觉仍不清楚且存在争议。例如,DeepSeek-R1 在事实检索基准 SimpleQA 上报告了性能提升,而 OpenAI-o3 却观察到更加严重的幻觉现象。这种差异自然引发了以下研究问题:推理模型是否更容易产生幻觉?本文从三个角度探讨了这一问题。首先,我们对大规模推理模型中的幻觉进行了全面评估。分析结果表明,经过完整的后训练流程,包括冷启动监督微调(SFT)和可验证奖励强化学习(RL),通常可以减轻其幻觉现象。相比之下,仅进行蒸馏或没有冷启动微调的强化学习训练则会引入更多细微的幻觉。为了探究不同的后训练流程如何改变大规模推理模型中幻觉的影响,我们进行了行为分析。我们确定了两种直接影响大规模推理模型事实性的关键认知行为:错误重复(Flaw Repetition),即表面级别的推理尝试反复遵循相同的底层错误逻辑;以及思考-回答不匹配(Think-Answer Mismatch),即最终答案未能忠实反映之前的 CoT 过程。此外,我们从模型不确定性的角度进一步探讨了大规模推理模型产生幻觉的机制。我们发现,大规模推理模型的幻觉增加通常与其不确定性与事实准确性之间的错位有关。我们的工作为理解大规模推理模型中的幻觉提供了一个初步的认识。