Command Palette
Search for a command to run...
迷失在噪声中:推理模型在上下文干扰项下的失效机制
迷失在噪声中:推理模型在上下文干扰项下的失效机制
Seongyun Lee Yongrae Jo Minju Seo Moontae Lee Minjoon Seo
Abstract
近年来,推理模型与智能体式人工智能系统的发展,使得对多样化外部信息的依赖日益增强。然而,这一趋势引入了本质上具有噪声的输入上下文,而当前的净化型基准测试无法真实反映这一现实。为此,我们提出了 NoisyBench——一个全面的基准测试框架,系统性地评估模型在检索增强生成(RAG)、推理、对齐性及工具使用等任务中,面对11个不同数据集的多种噪声类型时的鲁棒性表现。这些噪声类型包括随机文档、无关的聊天历史记录以及高难度负样本干扰项。我们的评估发现,当面对上下文干扰项时,当前最先进的模型性能出现高达80%的灾难性下降。尤为重要的是,我们观察到智能体工作流往往会放大这些错误——由于过度信任噪声工具输出,导致错误传播;此外,即使没有恶意意图,干扰项也可能引发模型行为的意外偏离,即“涌现性对齐偏差”。进一步分析表明,传统的提示工程(prompting)、上下文设计、监督微调(SFT)以及基于结果奖励的强化学习(outcome-reward only RL)均无法有效保障模型在噪声环境下的鲁棒性。相比之下,我们提出的理性感知奖励机制(Rationale-Aware Reward, RARE),通过激励模型在噪声中识别出真正有用的信息,显著提升了系统的抗干扰能力。最后,我们发现了一个反向缩放现象:在测试阶段增加计算资源反而导致模型在噪声环境下的性能下降。通过注意力可视化分析,我们证实模型在处理噪声输入时,会不恰当地过度关注干扰项中的特定标记(tokens),这一发现为构建下一代具备强推理能力且高度鲁棒的智能体提供了关键洞见。
一句话总结
韩国科学技术院(KAIST)AI、LG AI研究以及芝加哥大学的Seongyun Lee、Yongrae Jo、Minju Seo、Moontae Lee和Minjoon Seo提出了NoisyBench,一个全面的基准测试,用于评估在现实噪声环境下的推理模型表现,发现最先进的模型因上下文干扰项导致性能最高下降80%。他们提出了一种新颖的训练方法——理由感知奖励(Rationale-Aware Reward, RARE),激励模型在噪声中识别有用信息,通过将推理过程锚定在相关内容上,显著提升了鲁棒性。与基于结果的奖励不同,RARE通过直接监督推理过程来增强抗干扰能力,缓解了代理工作流中的错误放大问题并解决了新兴的对齐偏差。研究结果突显了在真实世界代理型AI系统中进行噪声感知评估与训练的紧迫性。
主要贡献
-
当前的推理模型和代理型AI系统在干净、净化过的基准测试中表现良好,但在面对真实噪声(如随机文档、无关聊天记录和硬负样本干扰项)时,性能出现灾难性下降——最高达80%,暴露出基准评估与实际部署之间的关键差距。
-
作者提出了NoisyBench,一个涵盖11个数据集的综合性基准,覆盖RAG、推理、对齐和工具使用任务,系统性地评估模型在多种噪声类型下的鲁棒性,并发现代理型工作流常因过度信任噪声输入而放大错误,即使无对抗意图也会导致新兴对齐偏差。
-
为提升鲁棒性,作者提出理由感知奖励(Rationale-Aware Reward, RARE),一种训练目标,激励模型在噪声上下文中识别并优先处理有用信息,显著优于提示工程、上下文工程、监督微调(SFT)和基于结果的强化学习(RL),在提升干扰项过滤能力的同时改善最终准确率;注意力分析显示,模型在错误预测中对干扰项token的关注度不成比例地偏高。
引言
作者针对代理型AI系统对外部信息日益依赖的问题展开研究,这种依赖引入了现实世界中的噪声,如无关文档、错误工具输出和误导性聊天记录——这些挑战未被现有干净基准所涵盖。以往研究聚焦于理想化、净化后的环境,导致对模型鲁棒性的高估;即使是非对抗性噪声,也会使最先进模型的性能下降高达80%,而代理型工作流通过鼓励对噪声输入的过度信任进一步放大错误。作者提出NoisyBench,一个涵盖11个数据集的综合性基准,用于在RAG、推理、对齐和工具使用任务中评估多样噪声类型下的鲁棒性。研究发现,标准缓解策略——提示工程、上下文工程、监督微调和基于结果的强化学习——无法确保鲁棒性。相比之下,作者提出的理由感知奖励(RARE)通过显式奖励模型在噪声上下文中识别和过滤有用信息,显著提升性能,实现更扎实的推理和更高准确率。分析表明,噪声引发反向缩放(计算越多,性能越差)、不确定性增加以及注意力被错误引导至干扰项,揭示了当前模型的根本性脆弱性。
数据集
- NoisyBench数据集包含11个跨四个任务类别的多样化数据集:检索增强生成(RAG)、推理、对齐和工具使用。
- RAG数据集包括SealQA、MultihopRAG和Musique;推理数据集为BBEH-Mini、AIME25和GPQA-Diamond;对齐数据集为Model-Written-Evaluations(自我意识与生存本能)和BBQ;工具使用由TauBench v1(零售与航空)代表。
- 每个数据集在四种设置下进行评估:干净(无干扰项)、随机文档、随机聊天记录和任务特定的硬负样本干扰项。
- 随机文档来自RULER-HotPotQA,随机聊天记录来自WildChat。
- 硬负样本干扰项由LLM(Gemini-2.5-Pro)通过提示每个问题合成生成,确保其看似相关但不包含任何有用或正确信息。
- 采用两阶段过滤流程剔除2.7%的样本:第一阶段验证与原始问题的一致性;第二阶段剔除任何暗示或包含正确答案的干扰项。
- 过滤后,每种设置构建出2,766个高质量的问题-干扰项对,形成平衡的基准。
- 作者使用该基准评估模型在噪声检索和推理场景下的鲁棒性,并利用NoisyInstruct数据集进行模型训练与微调。
- NoisyInstruct基于NVIDIA Nemotron Nano 2预训练后数据集构建,包含四种数据类型:(A|Q)、(A|Q,H)、(A|Q,D) 和 (A|Q,D,H),其中提示和干扰项为合成生成。
- NoisyInstruct的随机文档来自Natural Questions,随机聊天记录来自Nemotron Nano 2的聊天分割,确保与NoisyBench无重叠。
- 提示生成方式与硬负样本类似,经过滤以避免包含正确答案,使用Gemini-2.5-Pro作为LLM-as-a-judge进行判断。
- NoisyInstruct提供四种规模:4.5k、45k、450k和4.5m样本,支持可扩展训练。
- 论文使用NoisyInstruct数据集进行监督微调(SFT)和强化学习(RL),采用Group Reward Policy Optimization(GRPO)方法,以gpt-oss-120b作为奖励模型。
- 训练过程中,模型接触所有四种数据类型,混合比例经调优以平衡鲁棒性与性能。
- 未显式应用裁剪策略,而是聚焦于过滤与质量控制,确保干扰项无信息量且无害。
- 元数据包括任务类别、干扰项类型以及通过句子嵌入计算的相似度分数,经归一化与分箱处理用于分析。
- 作者强调伦理保障:有害内容通过内容审核API过滤,且该基准禁止用于训练,以防止偏见放大。
- 附录G中的定性示例展示了失败案例,包括幻觉和偏见响应,并对可能令人不适的内容发出警告。
方法
作者采用模块化框架,旨在评估并增强语言模型在推理任务中的鲁棒性,特别是在噪声或对抗性条件下。整体架构由多个组件构成,模拟现实世界中的挑战,包括信息过载、误导性上下文以及硬负样本的存在。流程始于干净基准设置,模型接收结构良好的输入,包含问题、正确答案和相关文档。该干净上下文由代理处理,执行对齐与推理,生成正确输出。如图所示,代理在干净设置下成功识别正确答案,展示了基线性能。

随后,框架扩展至噪声环境,模型暴露于扰动输入。在NoisyBench设置中,代理接收嵌入随机文档或偏见聊天记录中的问题,引入无关或误导性信息。模型输出在对齐与推理准确性方面进行评估。下图说明,面对噪声时模型无法维持正确对齐,产生错误或与原始问题不一致的输出。这凸显了当前模型在真实世界干扰面前的脆弱性。

为进一步施压模型,作者引入硬负样本生成流程。提供一个提示,生成一段长篇、具有干扰性的文档,内容与问题一致但不改变正确答案。生成的干扰项必须增加认知负荷并引发合理困惑,同时忠实于问题上下文。输出严格限制为干扰项文本,不包含额外格式或解释。此步骤确保生成内容具有挑战性,但逻辑上与正确答案正交。

生成的硬负样本一致性随后通过独立提示进行评估。专家教育逻辑评估者判断干扰项是否与正确答案属于同一类别或逻辑类型,是否保持上下文有效性,且不改变或否定原始问题前提。评估分步进行,最终决策以JSON格式返回,标明干扰项是否一致。这确保生成内容既合理又逻辑严谨,但不损害原始问题的完整性。

最后,在强化学习(RL)设置中分析模型输出,任务为求解涉及麦克斯韦方程组的问题。模型生成包含详细分析与结论的解答,但最终答案错误。此例展示了模型生成看似合理但最终未能得出正确结论的复杂推理过程,凸显了对更鲁棒评估方法的需求。

实验
-
NoisyBench基准测试在四种干扰类型下评估模型鲁棒性:无干扰(ND)、随机文档(RD)、随机聊天(RC)和硬负样本(HN),结果表明现实噪声显著降低RAG、推理、对齐和工具使用任务的性能。
-
所有模型在干扰下均出现显著性能下降,降幅在9%至80.6%之间,即使顶级模型如Gemini-2.5-Pro也出现大幅下降(平均38.3%),表明干净环境下的高准确率无法保证鲁棒性。
-
随机和硬负样本干扰严重损害对齐能力,Gemini-2.5-Pro在BBQ上的准确率从94.0%降至60.5%,表明噪声本身即可引发新兴对齐偏差。
-
采用工具和多步规划的代理型工作流在噪声下表现劣于基础推理模型,原因在于对干扰项的过度依赖、错误传播和工具路由污染。
-
提示工程、监督微调(SFT)和上下文工程(GEPA、DC、ACE)均无法提升鲁棒性;SFT甚至导致灾难性遗忘,而CE方法常丢弃有用信息或继承噪声。
-
基于结果的强化学习(OR)相比基线提升了鲁棒性,但理由感知奖励(RARE)——在推理过程中奖励正确来源识别——在所有设置和模型中均持续优于OR。
-
RARE通过减少分心推理链并提升最终准确率,实现对推理过程的细粒度监督,证明奖励推理步骤而非仅结果能增强鲁棒性。
-
干扰项与问题的相似度越高,推理token使用越多,准确率越低;干扰项越多,输出熵越高,置信度越低,表明不确定性增加。
-
注意力分析显示,错误预测与对干扰项token的过度关注密切相关,证实模型被无关但相似的内容误导。
-
混合干扰类型(如RD+RC+HN)导致的性能下降大于单一类型,即使总长度受控,表明干扰项构成而非输入长度是性能损失主因。
-
更大模型随规模提升鲁棒性,但超过8B参数后收益趋于饱和,表明单纯缩放不足以实现噪声鲁棒性。
-
在NoisyInstruct上训练并使用RARE可良好迁移到干净环境,模型在无干扰情况下仍取得更高准确率,表明泛化能力与上下文过滤能力提升。
-
令人意外的是,干扰项提升了越狱检测能力,在安全基准上提高拒绝率,且不影响无害问题上的性能,表明噪声可能放大攻击信号。
作者使用一系列柱状图比较基础模型与代理型工作流在四种干扰设置(无干扰ND、随机文档RD、随机聊天RC、硬负样本HN)下的表现。结果显示,尽管代理型工作流在干净ND设置中提升性能,但在所有噪声条件下均持续劣于基础模型,表明代理系统因过度依赖潜在误导性上下文而更易受干扰影响。

作者使用表格展示三种模型在不同干扰设置下相对于无干扰基线的性能下降情况。结果显示,所有模型在引入干扰后均出现显著准确率下降,最严重降幅出现在硬负样本和混合干扰条件下。DeepSeek-R1-Distill-Llama-8B模型在HN和RD+RC+HN设置下退化最严重,表明其对噪声输入高度敏感。

作者使用一系列柱状图比较不同干扰类型和位置下模型的表现,特别考察将干扰项置于问题前或后的影响。结果显示,不同模型和干扰类型下表现差异显著,部分模型如Qwen3-4B-Thinking-2507在问题先出现时表现更优,而DeepSeek-R1-Distill-Llama-8B则无明显差异。数据表明,干扰类型与位置影响模型行为,硬负样本(HN)通常导致最严重性能下降,且将问题置于干扰项之后常导致更差结果。

作者使用NoisyBench评估模型在不同干扰类型下的鲁棒性,结果显示所有模型在引入干扰后均出现显著性能下降,降幅在9%至80%之间。硬负样本干扰导致最严重退化,即使随机干扰也显著损害性能,表明强干净性能无法保证鲁棒性。

作者使用一系列柱状图比较三种模型——Qwen3-4B-Thinking-2507、DeepSeek-R1-Distill-Llama-8B和Qwen3-30B-A3B-Thinking-2507——在不同上下文工程方法(GEPA、DC、ACE)和干扰类型(HN、RD、RC)下的表现。结果显示,上下文工程方法在所有模型和干扰设置下均仅带来有限提升,性能普遍保持低位或与基础模型无异,表明这些方法在噪声环境中无法有效增强鲁棒性。
