5 天前
TruthRL:通过强化学习激励LLM说真话
Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong

摘要
尽管大型语言模型(LLMs)在事实性问答任务中表现出色,但仍容易产生幻觉并给出不真实回答,尤其是在任务需要超出其参数化知识范围的信息时。事实上,真实性不仅要求准确性,还要求模型能够识别不确定性,并在不确定时选择不回答,以避免幻觉。这一需求对现有方法构成了根本性挑战:那些以准确性为目标优化的方法往往加剧了幻觉现象,而那些鼓励模型选择不回答的方法则可能过于保守,导致丢失本应正确的答案。这两种极端情况最终都会损害模型的真实性。在本工作中,我们提出TruthRL,一种通用的强化学习(RL)框架,旨在直接优化大型语言模型的真实性。具体而言,我们采用GRPO算法,并设计了一种简单但高效的三元奖励机制,能够区分正确回答、幻觉回答和放弃回答三种行为。该框架通过鼓励模型在不确定时选择放弃回答,而不仅仅依赖提供正确答案,从而有效减少幻觉,提升真实性。在四个知识密集型基准测试上的大量实验表明,与原始强化学习方法相比,TruthRL将幻觉率显著降低了28.9%,真实性提升21.1%,且在不同主干模型(如Qwen、Llama)下,无论是否采用检索机制,均表现出一致的性能提升。深入的消融实验表明,传统的以准确性为导向的方法(如监督微调或基于二元奖励的强化学习)难以在事实正确性与不确定性处理之间取得平衡。相比之下,我们提出的以真实性为导向的TruthRL在准确性和真实性方面均取得了优异表现,充分证明了学习目标设计在构建可信大型语言模型中的关键作用。