HyperAI超神经
Back to Headlines

大型语言模型推理新框架:分离知识与逻辑以提升透明度和可信度

14 days ago

近日,大型语言模型(LLM)在复杂任务上的表现取得了显著进步,尤其是OpenAI的o1/3和DeepSeek-R1等聚焦于推理能力的模型。然而,这些模型的具体推理过程仍然是一个谜。大多数评估方法主要关注最终答案的准确性,这掩盖了模型如何逐步推理以及如何结合知识和逻辑的过程。例如,在数学和医学等领域,准确的推理方式和步骤的重要性远远超过了单纯的最终答案。 数学和医学推理中的不足 近年来,LLM在数学和医学推理任务上的表现令人瞩目,这得益于更高质量的训练数据和奖励策略。然而,目前的大多数研究仅强调提高最终答案的准确性,却忽视了对推理过程的深入分析。以前的一些方法试图通过比较推理结果与原始问题的相似度来衡量推理质量,但这种方法存在缺陷,因为模型可能依赖于内部知识或之前的推断,即使相似度高也不代表逻辑正确或事实准确。 新框架:分离知识与逻辑 来自加州大学圣克鲁兹分校、斯坦福大学和同济大学的研究人员提出了一种新方法,将LLM的推理过程分解为两个部分:事实性知识和逻辑步骤。他们引入了两个指标:知识指数(KI)用于衡量事实准确性,信息增益(InfoGain)用于评估推理的质量。通过这两个指标,研究人员能够详细分析Qwen系列模型在数学和医学任务中的推理过程。研究发现,推理技能在不同领域之间的迁移并不容易,尽管监督微调(SFT)提高了准确率,但它往往会削弱推理深度。相比之下,强化学习(RL)有助于精炼推理,去除无关信息,从而提高整体表现。 用Qwen2.5-7B和DeepSeek-R1进行评估 为了验证这一框架的有效性,研究人员选择了Qwen2.5-7B及其通过DeepSeek-R1蒸馏的版本作为评估对象。他们利用来自数学和医学领域的任务,将模型的响应分解为逻辑步骤,并通过信息增益和知识指数两个关键指标进行评估。结果显示,每个推理步骤的信息增益反映了它减少不确定性的程度,而知识指数则验证了每一步是否符合专家认定的事实。这种评估方法揭示了模型在推理中的弱点,无论是事实性错误还是逻辑不严密。 监督微调与强化学习在特定任务中的对比 研究还对比了Qwen-Base和蒸馏后的Qwen-R1在医学任务中的表现。结果显示,未经蒸馏的Qwen-Base在准确率、知识保留和推理能力上均优于Qwen-R1,尤其是在经过监督微调和强化学习后。这主要是因为蒸馏模型在数学和代码任务上的训练较多,导致在医学领域的表现不佳。有趣的是,监督微调在增强医学知识方面比强化学习更为有效,尽管可能会稍微降低推理效率。相比之下,强化学习在监督微调之后应用时,可以改善推理和知识的结合。 结论:迈向更可解释和可信的LLM 综上所述,这项研究提出了一种分离知识与逻辑的新框架,以更好地评估LLM如何思考,特别是在医疗和数学等高风险领域。通过Qwen系列模型的实际案例分析,研究发现监督微调虽然提高了事实准确性,但在某些情况下会削弱推理深度;而强化学习则能有效去除错误信息,提升推理质量。这种评估方法不仅有助于理解LLM的决策过程,还为特定领域的模型训练提供了宝贵的指导。未来,该框架有望扩展到法律、金融等需要结构化思维的领域。 业内人士对这一研究给予了高度评价,认为这是在透明性和可信度方面的一个重要突破。研究人员来自加州大学圣克鲁兹分校、斯坦福大学和同济大学,他们的工作为进一步发展可解释的人工智能奠定了基础。感兴趣的读者可以访问该项目的论文、代码和项目页面获取更多信息。

Related Links