Command Palette
Search for a command to run...
思考以唤起:推理如何解锁 LLM 中的参数化知识
思考以唤起:推理如何解锁 LLM 中的参数化知识
Zorik Gekhman Roee Aharoni Eran Ofek Mor Geva Roi Reichart Jonathan Herzig
摘要
尽管大型语言模型(LLM)中的推理能力在数学求解、代码生成及多跳事实问答等任务中发挥着天然作用,但其对简单单跳事实问答的影响仍不明朗。此类问题无需逐步的逻辑分解,使得推理的效用显得高度反直觉。然而,我们发现启用推理机制显著拓展了模型参数化知识检索的能力边界,从而解锁了原本难以获取的正确答案。在无需复杂推理步骤的情况下,推理为何能辅助参数化知识的检索?为解答这一疑问,我们设计了一系列假设驱动的对照实验,并识别出两个关键驱动机制:(1)计算缓冲效应(computational buffer effect),即模型利用生成的推理令牌(tokens)执行与其语义内容无关的潜在计算;(2)事实启动效应(factual priming),即生成与主题相关的事实作为语义桥梁,促进正确答案的检索。值得注意的是,这种基于生成的自检索机制蕴含着固有风险:我们证明,在推理过程中对中间事实产生幻觉(hallucination),会显著增加最终答案出现幻觉的概率。最后,我们表明,利用上述洞察,通过优先选择包含无幻觉事实陈述的推理轨迹,可直接提升模型的准确性。
一句话总结
来自谷歌研究、以色列理工学院和特拉维夫大学的研究人员证明,在大型语言模型中启用推理能力,能够通过计算缓冲和事实启动扩展简单问题的参数化知识召回范围,同时也揭示了幻觉中间事实会显著降低最终答案的准确性。
主要贡献
- 启用推理能力显著扩展了大型语言模型的参数化知识召回边界,解锁了原本无法回答的简单单跳问题的正确答案。
- 受控实验确定了两种驱动机制:一种与内容无关的计算缓冲效应,以及一种与内容相关的事实启动过程,其中生成相关事实充当了检索的语义桥梁。
- 大规模审计显示,幻觉中间事实会增加最终答案出错的概率,而在推理时优先选择无幻觉的推理轨迹可显著提高模型准确率。
引言
大型语言模型中的推理能力在数学和编程等复杂任务中已得到充分验证,但其对简单、单跳事实性问题的价值却显得反直觉,因为这些查询并不需要逻辑分解。 prior 研究主要关注推理如何辅助多步问题解决或提高本已可获取答案的概率锐化,却缺乏对推理如何扩展模型基础参数化知识边界的理解。作者证明,启用推理能力通过利用两种截然不同的机制,显著解锁了原本无法获取的正确答案:一种是与内容无关的计算缓冲效应,另一种是与内容相关的事实启动过程,即模型生成相关事实以填补检索空白。他们进一步揭示,虽然这种生成式自检索提高了准确率,但也引入了风险,即幻觉中间事实会增加最终答案出错的概率;基于这一发现,他们提出了在推理时优先选择无幻觉推理轨迹的策略。
数据集
- 数据集构成与来源:作者使用了 EntityQuestions 数据集(Sciavolino 等人,2021)的一个子集,特别聚焦于 Gekhman 等人(2025)最初分类的 24 种关系。
- 子集选择标准:从原始的 24 种关系中,团队仅选择了 4 种满足两个严格标准的关系:它们必须是“难以猜测”的(即答案空间很大,如人名),且“定义明确”(即实体类型和答案粒度无歧义)。
- 数据结构与处理:每个输入样本由一个基于特定关系模板生成的问题,以及作为摘要提供的原始事实组成。
- 模型用途:这些精心挑选的关系构成了评估模型处理复杂、无歧义实体查询能力的基础,而非依赖常见默认值。
方法
所提出的框架区分了直接答案生成和推理增强生成。如第一张图所示,系统运行在多种模式下:"OFF"(直接输入到答案)、"ON"(输入到详细思维过程再到答案),以及涉及“虚拟”思维的变体,后者作为占位符或对照条件。在"ON"模式下,模型明确将查询分解为多个步骤,例如识别关键实体、构建搜索查询、执行搜索(模拟或实际),最后陈述最终答案。

该框架还包含了在输入问题之外提供额外事实背景的场景。第二张图展示了这些变体,包括"OFF Facts"(提供背景但不生成思维过程)和"ON"(即使有背景,模型仍执行详细的检索和计数过程)。在带有事实的"ON"模式下,推理轨迹包括关键词优化、信息检索以及特定计数或实体识别步骤(例如列出尼泊尔第 1 至第 10 任国王),以推导出答案。

在生成这些推理轨迹后,采用了一个特定的数据处理模块来优化提取的事实。由于推理轨迹经常重述问题中已存在的信息,作者实施了一个基于大语言模型(LLM)的过滤步骤以去除此类冗余。该过程利用一个模型(例如 Gemini-2.5-Flash)将“原始事实”与输入问题进行对比分析。过滤逻辑规定:仅当事实包含的所有信息都已在问题中明确陈述时,才移除该事实。相反,如果事实提供了问题中未出现的新信息、细节或背景,即使它部分重复了问题内容,也应予以保留。
此外,还应用了特定规则以防止模型简单地记忆答案。如果某个事实陈述或暗示目标答案是该特定问题的解,则该事实会被移除。然而,在不相关上下文中提及答案或完全未提及答案的事实则会被保留。这确保了训练数据捕捉的是推理路径和外部知识检索,而不仅仅是最终答案的映射。
实验
- 在闭卷问答基准测试中,使用推理功能开启或关闭的混合模型进行的实验表明,推理 consistently 扩展了模型的参数化知识边界,解锁了在没有推理时无法获取的正确答案,尤其是在更高的采样深度下。
- 分析显示,这些提升并非主要由分解复杂多跳问题驱动,因为推理对简单和复杂问题类型的有效性相似,表明该机制促进的是直接事实召回而非任务分解。
- 受控测试验证了两种互补机制:一种计算缓冲效应,即生成额外令牌可实现独立于语义内容的潜在计算;以及一种事实启动效应,即回忆相关事实可构建通往正确答案的语义桥梁。
- 对推理轨迹的调查显示,幻觉中间事实系统地降低了获得正确最终答案的可能性,而包含已验证事实陈述的轨迹则显著提高了准确率。
- 通过在测试时采用优先选择包含事实内容并避免幻觉的轨迹的选择策略,将这些发现应用于实践,可带来可测量的模型准确率提升。