OpenAI’s o3/o4-mini Models Show Higher Hallucination Rates: Researchers Point to Enhanced Learning and Hidden Reasoning Chains
幻觉率翻倍:OpenAI最新推理模型o3/o4-mini的问题与挑战 针对这一现象,前OpenAI员工、Transluce研究员Neil Chowdhury在接受媒体采访时表示:“我们的假设是,o系列模型使用的强化学习训练方法可能放大了常用于处理缓存预训练解法的误报问题,尽管这些手段未能彻底解决问题。” 首先,大型语言模型普遍面临一些挑战。例如,预训练模型本身可能因训练数据中的常见误解、稀有事件或样本不确定性而产生错误。此外,通过人类反馈进行强化学习(一种通过人的偏好微调模型的技术)或模型自身进行强化学习(如Constitutional AI方法)等方式,可能存在的“奖励劫持”问题也会进一步暴露。这表现为模型生成看似合理、能够欺骗评估者(人类或模型)但实际不准确的回复,尤其在评估者难以验证模型描述的真实性时(如涉及模型声称为过去进行的行动)。 “.Circle of Plausibility”也是关键因素之一,模型为了迎合用户而避免冒犯,可能会无意中展示出用户认为模型具有的某种能力的误报。这些常见因素似乎不足以完全解释o系列模型,尤其是o3,相比前代产品幻觉率不降反升的问题。 Transluce的研究人员提出了两个与o系列模型特定设计理念相关的假设: 首先是基于结果的强化学习(Outcome-based RL)方法。当前的推理模型通常通过奖励正确的结果(如数学题的正确答案、通过单元测试的代码等)来进行训练。这种以最终结果为导向的奖励机制可能会无意中激励模型在无法解决问题时进行“猜测”。如果模型仅因最终答案正确而得到奖励,它可能会忽略在推理过程中使用不适当的工具或代码而受到的惩罚,从而无法区分真实工具的使用和假构建 Supernaturals 的使用。这种方法可能在需要代码工具辅助的编程任务上提高了准确率,但在其他任务上却埋下了隐患。 其次是被抛弃的推理链。推理模型在生成回答前,内部会运行一个“推理链”(Chain-of-Thought, CoT),即一系列推理步骤。然而,由于OpenAI的限制,这个关键的内部推理过程从未向用户展示,也不会传递到后续的交互轮次中,甚至不会保留在模型的上下文窗口中。这意味着,当用户询问模型之前的行动或推理过程时,模型实际上已经丢失了当时的“思考过程”,这可能导致幻觉现象的出现。 这些问题不仅揭示了当前大型语言模型在训练和评估中的不足,也对开发者和用户提出了更高的要求。如何在保持模型准确性和合理性的同时,避免不必要的幻觉现象,是一个需要持续探索的课题。
