3日前
DuPO:二重選好に基づく信頼性のあるLLM自己検証の実現
Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

要約
我々は、一般化された双対性を用いてラベル不要のフィードバックを生成する、二重学習に基づく好み最適化フレームワーク「DuPO」を提案する。DuPOは、以下の二つの主要な課題に取り組む。第一に、検証可能な報酬を用いた強化学習(RLVR)が高コストなラベルに依存しており、適用範囲が検証可能なタスクに限定されている点。第二に、従来の二重学習が厳密な双対タスクペア(例:翻訳と逆翻訳)に限られている点である。具体的には、DuPOは元のタスクの入力を既知の部分と未知の部分に分解し、元のタスクの出力と既知の情報(例:数学的解法の逆算により隠れた変数を復元)を用いて、未知の部分を再構成する双対タスクを構築する。これにより、逆写像が存在しないタスクにも適用可能な範囲が広がる。この再構成の質が自己教師学習型の報酬として機能し、元のタスクの最適化に寄与する。さらに、単一のモデルにより両タスクを実装できる大規模言語モデル(LLM)の能力と相乗効果を発揮する。実験的に、DuPOは多様なタスクにおいて顕著な性能向上を達成した。756方向の翻訳タスクにおいて、平均してCOMETスコアを2.13点向上させ、3つの難易度の高いベンチマークにおいて数学的推論の正確性を平均6.4ポイント向上させ、推論時リランカーとして用いた場合にも9.3ポイントの性能向上を達成した(計算量を増やして精度を高める戦略)。これらの結果から、DuPOはスケーラブルで汎用的かつラベル不要な大規模言語モデル最適化の新たなパラダイムとして位置づけられる。