HyperAI超神経
Back to Headlines

Google DeepMindが提案するCrome:LLMアライメントにおける因果的ロバスト報酬モデリング

2日前

Google DeepMindが提案する因果関係に基づく報酬モデルの新フレームワーク「Crome」 報酬モデル(RM)は、人間のフィードバックに大規模言語モデル(LLM)を合わせる上で重要な役割を果たします。しかし、RMは応答の長さや書式などの表面的な属性に焦点を当て、事実性や関連性などの質的な指標を正しく認識できないため、報酬ハッキングという問題に直面しています。これにより、訓練データに存在する誤った相関を本物の品質決定要因と区別できない脆弱なRMが生成され、結果として不整合なポリシーが生じます。 Google DeepMind、McGill University、およびMILA – Quebec AI Instituteの研究者たちは、「Crome」(Causally Robust Reward Modeling)と呼ばれる新フレームワークを提案しました。Cromeは、明確な因果モデルに基づいてRMを訓練することで、真の品質決定要因と表面的なサインを区別し、因果的な品質属性に敏感になり、様々な誤ったサインに対して不変であるRMを生成します。このフレームワークは、因果関係に基づくカウンターファクチュアルなデータセットを生成し、それを使ってRMを訓練します。 技術的手法:カウンターファクチュアル・オーグメンテーションと複合ロスの最適化 Cromeは2つの主要なフェーズで動作します。まず、因果モデルに基づいて属性に特化したカウンターファクチュアルデータを生成し、次に特化したロス関数を用いてこの組み合わせデータでRMを訓練します。理論的な分析では、理想的なモデルにおける因果的なオーグメンテーションが本当の報酬のドライバを誤った相関から分離することを示しています。実験にはUltraFeedbackデータセットとGemini 2.0 Flashを用いました。評価はRewardBenchとreWordBenchで行われ、Base LLMにはGemma-2-9B-IT、Qwen2.5-7B、Gemma-2-2Bが使用されました。 性能向上:RewardBenchからWildGuardTestまで RewardBenchでの評価では、Cromeは異なるBase LLMにわたってRMランキングの精度を向上させました。特に安全性(最大13.18%)、推論能力(最大7.19%)のカテゴリーで大幅な改善が見られました。reWordBenchでは、Gemma-2-9B-ITを用いたPairPM設定で最大9.1%の精度向上を達成し、23のトランスフォーメーション中的に21で優れたパフォーマンスを示しました。また、RRMに比べてRewardBenchからreWordBenchへの精度低下が少ない(19.78% vs 21.54%)ことも確認されています。WildGuardTestでも、Best-of-N選択による有害なプロンプトに対する攻撃成功率の低下と、良性的なプロンプトに対する拒否率の類似を維持しながら、優れた安全性を達成しています。 結論と未来の方向性 Cromeは、因果関係に基づくデータ生成と整理に重点を置いた新しい訓練方法であり、報酬ハッキングの問題を解決するために、因果的な品質属性に敏感で、誤った相関に依存しないRMを生成します。Cromeの手法は、多様なBase LLMと報酬モデリング技術の強基線モデルに対して、RewardBenchとreWordBenchでの優れた性能を示しています。この研究は、未来的な語言モデルアライメントのために、因果属性検証の活用が有益であろうことを示唆しています。 Google DeepMindの研究者は、このフレームワークがLLMの堅牢性向上に貢献すると期待しており、合成データ生成技術の新たな研究領域を開拓することになると述べています。また、Cromeは、言語モデルの訓練における高品質なデータセット作成のために幅広く活用される可能性があると指摘しています。

Related Links