HyperAIHyperAI

Command Palette

Search for a command to run...

FaithLens:检测与解释忠实性幻觉

Abstract

在现实应用场景中,如检索增强生成(retrieval-augmented generation)和摘要生成,识别大型语言模型(LLMs)输出中的忠实性幻觉(faithfulness hallucination)至关重要。本文提出 FaithLens,一种成本高效且效果显著的忠实性幻觉检测模型,能够同时提供二元预测结果及相应的解释,从而提升系统的可信度。为实现这一目标,我们首先利用先进的大型语言模型合成带有解释的训练数据,并采用明确的数据过滤策略,以确保标签的准确性、解释的质量以及数据的多样性。随后,我们在经过精心筛选的训练数据上对模型进行微调,作为冷启动初始化,并进一步通过基于规则的强化学习进行优化,奖励机制同时涵盖预测正确性与解释质量。在12项多样化的任务上进行的实验结果表明,参数量为80亿的 FaithLens 在性能上超越了 GPT-4.1 和 o3 等先进模型。此外,FaithLens 能够生成高质量的解释,在可信度、效率与有效性之间实现了独特而均衡的表现。

一句话摘要

清华大学等机构提出 FaithLens,一款 80 亿参数的高性价比幻觉检测器。该模型利用合成训练数据和基于规则的强化学习,联合预测大语言模型输出的事实性并生成解释,在检索增强生成和摘要任务中超越 GPT-4.1,同时平衡可信度与有效性。

核心贡献

  • FaithLens 解决了检索增强生成和摘要等实际应用中检测大语言模型事实性幻觉的关键挑战,现有方法缺乏可解释性且跨任务性能不稳定,而该模型满足了对可信检测的需求。
  • 模型采用创新的两阶段训练方法:通过高级大语言模型合成高质量解释性数据,并严格过滤标签正确性与多样性;随后进行微调和基于规则的强化学习,同步优化预测准确率与解释质量。
  • 在 12 项多样化任务中评估,80 亿参数的 FaithLens 超越 GPT-4.1 和 o3 等先进模型,在生成高质量解释的同时展现卓越的有效性、效率与可信度,且无需依赖高成本 API 检测器。

引言

大语言模型常生成事实性幻觉——输出与检索文档或源文本等输入上下文不一致的内容——这严重损害了检索增强生成和摘要等关键应用的可靠性。现有检测方法存在显著局限:使用高级大语言模型进行评估的方案计算成本高昂,而小型自然语言推理模型在跨任务与跨领域场景中鲁棒性不足。更重要的是,现有检测器仅提供二元幻觉标签而无解释,阻碍用户信任与实际调试。作者利用严格过滤的高质量合成数据和基于规则的强化学习训练 FaithLens,这款紧凑型检测模型在保持跨任务有效性与操作效率的同时,提供可解释的判断结果。

数据集

作者使用 DeepSeek-V3.2-Think 等大型推理模型合成训练数据。通过向推理模型输入开源数据集(Lei et al., 2025)中的文档与主张,生成思维链推理、解释及标签,用于冷启动监督微调(SFT)。

评估采用 LLM-AggreFact 和 HoVer 的 12 个清洗数据集,采用 Seo et al. 的优化版本解决标签模糊性(9.1% 样本)与误标问题(6.6% 样本)。关键子集包括:

  • Agg-CNN & Agg-XSum:聚焦 SOTA 摘要输出(CNN/DM 和 XSum 数据集)中的幻觉检测,使用先进微调模型生成的摘要。
  • ClaimVerify:评估搜索引擎响应对引用文档的事实支持度。
  • ExpertQA:针对专家策划查询和引用/检索文档,验证系统响应(闭卷或 RAG 方式)。
  • FC-GPT:将大语言模型响应分解为原子事实,进行独立验证。
  • HoVer:测试需从最多四篇维基百科文章获取证据的复杂多跳推理,应对长距离依赖挑战。

合成训练数据(含解释)专用于初始 SFT 阶段。评估严格使用清洗后的基准子集,不进行额外处理或裁剪。句子级标注和幻觉强度标签等元数据直接继承自源数据集。

方法

作者采用两阶段训练流程构建 FaithLens——一款专为联合检测事实性幻觉与生成解释而设计的 80 亿参数专用模型。整体框架(如下图所示)始于使用合成数据的冷启动监督微调(SFT),随后通过基于规则的强化学习(RL)优化预测准确率与解释质量。

第一阶段,作者通过结构化提示词向大语言模型查询合成训练数据,强制输出特定格式:思维链(CoT)推理轨迹、文本解释及二元预测。如下图提示词要求大语言模型先在 <tool_call> 标签内逐步推理,再于 <reason> 标签提供解释,最后以 <answer> 标签包裹 "Yes" 或 "No" 作答。

为确保合成数据质量,作者实施三重过滤策略:

  1. 标签正确性验证:比对大语言模型预测 y^\hat{y}y^ 与源数据集真实标签 ygty_{\text{gt}}ygt,剔除 y^ygt\hat{y} \neq y_{\text{gt}}y^=ygt 的样本。
  2. 解释质量评估:测量生成解释 e^\hat{e}e^ 是否降低目标模型(如 Llama-3.1-8B-Instruct)预测正确标签的困惑度,公式化为 Fexp(s^)=I(PPLw. exp<PPLw/o. exp)F_{\text{exp}}(\hat{s}) = \mathbb{I}(\mathrm{PPL}_{\mathrm{w.~exp}} < \mathrm{PPL}_{\mathrm{w/o.~exp}})Fexp(s^)=I(PPLw. exp<PPLw/o. exp)
  3. 数据多样性保障:使用句子嵌入和 K-Medoids 算法聚类文档-主张对,仅保留能提升模型在多样质心样本探针集上性能的样本。

过滤后的数据集 D\mathcal{D}D 通过 SFT 目标函数 LSFT=Es^D[logM(cot^,e^,ygtdoc,c)]\mathcal{L}_{\mathrm{SFT}} = - \mathbb{E}_{\hat{s} \sim \mathcal{D}} [ \log \mathcal{M} ( \widehat{\text{cot}}, \hat{e}, y_{\mathrm{gt}} \mid \text{doc}, c ) ]LSFT=Es^D[logM(cot,e^,ygtdoc,c)] 微调基础模型。

第二阶段,作者应用 GRPO 算法进行基于规则的强化学习,进一步优化 SFT 初始化模型。对每个输入,模型生成 G 个候选响应(含预测与解释),通过复合奖励函数 Rfinal=Rpred+Rexp+RformatR_{\mathrm{final}} = R_{\mathrm{pred}} + R_{\mathrm{exp}} + R_{\mathrm{format}}Rfinal=Rpred+Rexp+Rformat 评估:

  • 预测正确性奖励 RpredR_{\mathrm{pred}}Rpred:预测匹配真实标签得 1 分,否则 0 分。
  • 解释质量奖励 RexpR_{\mathrm{exp}}Rexp:若新手级模型(如未调优的 Llama-3.1-8B-Instruct)能基于解释正确预测标签则得 1 分。
  • 格式奖励 RformatR_{\mathrm{format}}Rformat:确保输出符合要求结构。

GRPO 目标函数利用这些奖励计算优势值更新策略,同时约束与参考模型的偏离度。

训练协议(如下图)使用与推理相同的数据合成提示结构,确保一致性。解释质量过滤流程(图中展示)通过评估解释能否使下游模型正确预测,提供隐式的基于规则的质量信号。

这种双阶段方法使 FaithLens 不仅能生成准确的二元预测,还能提供高质量解释以增强用户信任,同时保持成本效益。

实验

  • 在 LLM-AggreFact 和 HoVer 基准的 12 项任务中取得最先进的宏平均 F1 分数,超越 FactCG、ClearCheck 等专用模型及 GPT-4.1、o3 等先进大语言模型,展现卓越稳定性与泛化性。
  • 生成的解释经 GPT-4.1 评判质量最高,在可读性、帮助性与信息量上全面领先基线,人工评估确认其在帮助性与信息量上优于 GPT-4o。
  • 0.80.80.8 / GPU 小时实现最优推理效率,在同等模型中以最低成本达成 SOTA 性能。
  • 消融实验验证标签正确性过滤、解释质量过滤、数据多样性过滤(K=10)及基于规则的复合奖励 RL 对性能与可解释性的关键贡献。
  • 在基础模型(Qwen-2.5-Inst、Llama-3.1-Inst)上均展现一致性能提升,并证实主张分解虽增加推理时间但有益效果。

作者在多种参数设置和设计变体下评估 FaithLens,表明性能在不同聚类数与嵌入模型中保持稳定。SFT 阶段同时使用思维链与解释的效果显著优于单独使用任一组件,且 RL 中基于正确性的奖励优于基于困惑度的指标。FaithLens 持续获得高可解释性分数,仅在使用异源或专家级模型计算奖励时出现轻微下降。

作者采用多阶段数据过滤策略精炼 FaithLens 训练数据,通过标签正确性、解释质量与数据多样性过滤将初始 52,268 个样本缩减至 28,643 个最终样本。结果表明该过滤在保持效率的同时提升模型性能,FaithLens 以更低推理成本达成 SOTA 结果且无需依赖私有数据。最终训练集包含 11,929 个 SFT 样本和 16,714 个 RL 样本,证明该方法能保留高质量多样化数据以实现有效幻觉检测。

FaithLens 以 86.4 的宏平均 F1 和 90.4 的可解释性分数实现最先进的有效性和可解释性。消融结果证实冷启动 SFT、数据过滤、基于规则的 RL 及解释质量奖励各组件均对性能有实质性贡献,移除任一组件均会损害有效性或可解释性。模型跨任务稳定性突出,标准差(4.6)为所有对比方法中最低。

结果表明,当使用 GPT-5-mini 作为评判器时,FaithLens 在可读性、帮助性与信息量方面的解释质量均超越先进大语言模型与专用检测模型,相比基础 Llama-3.1-8B-Inst 模型分别提升 +18.7、+23.5 和 +18.0 分。消融研究证实冷启动 SFT、数据过滤与解释质量奖励各组件均对性能有实质性贡献,泛化测试显示 Qwen-2.5 系列等不同基础模型上均保持一致提升。

作者在 Llama-3.1-8B-Inst、Qwen-2.5-3B-Inst 和 Qwen-2.5-7B-Inst 基座上训练检测模型,所有变体均取得最先进的有效性和可解释性分数。结果表明 FaithLens-8B 以最高平均有效性(86.4)和可解释性(90.4)将标准差降至 4.6,体现卓越稳定性与性能。FaithLens-3B 和 FaithLens-7B 同样超越基座模型,证实该方法在不同模型规模上的泛化能力。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供