5日前

TruthRL:強化学習を用いた真実性を促進する大規模言語モデル

Zhepei Wei, Xiao Yang, Kai Sun, Jiaqi Wang, Rulin Shao, Sean Chen, Mohammad Kachuee, Teja Gollapudi, Tony Liao, Nicolas Scheffer, Rakesh Wanga, Anuj Kumar, Yu Meng, Wen-tau Yih, Xin Luna Dong
TruthRL:強化学習を用いた真実性を促進する大規模言語モデル
要約

大規模言語モデル(LLM)は、事実型質問応答において優れた性能を示しているが、パラメトリックな知識範囲外の情報を必要とするタスクでは、依然として幻覚(hallucination)や事実と異なる回答を生じる傾向がある。実際、真実性(truthfulness)とは正確性を超えた概念である。モデルは、不確実性を認識し、自信がない場合には回答を控える(abstention)能力も必要であり、そうすることで幻覚を回避できる。しかし、これにより従来の手法には根本的な課題が生じる。正確性を最適化するアプローチは、幻覚を助長する傾向がある一方、回答を控えることを促す手法は過度に保守的になり、正解を失うリスクを伴う。いずれの極端な状態も、最終的に真実性を損なう。本研究では、LLMの真実性を直接最適化する汎用的な強化学習(RL)フレームワーク「TruthRL」を提案する。具体的には、三値報酬(ternary reward)を用いたシンプルながら効果的なGRPO(Generalized Reward Policy Optimization)を採用し、正解、幻覚、回答控除の三種類を明確に区別する。この報酬設計により、モデルは正しい回答を提供するだけでなく、不確実な状況では回答を控えることによって幻覚を抑制するようインセンティブを得る。その結果、真実性が向上する。4つの知識集約型ベンチマークにおける広範な実験から、従来のRL手法と比較して、TruthRLは幻覚を28.9%低減し、真実性を21.1%向上させることを確認した。また、リトリーブあり・なしの両設定において、様々なバックボーンモデル(例:Qwen、Llama)で一貫した性能向上が得られた。詳細なアブレーション研究により、従来の正確性中心の手法(例:教師あり微調整、二値報酬を用いたRL)は、事実の正確性と不確実性の認識のバランスを取るのが困難であることが明らかになった。一方、本研究で提案する真実性中心のTruthRLは、正確性と真実性の両面で優れた性能を発揮し、真実性を持つLLMの開発において、学習目的の設計が極めて重要であることを示している。