HyperAI超神経
Back to Headlines

MetaとNYUが開発、大型言語モデルのヒューマンアライメントを効率化する新半オンライン強化学習法

9日前

新たなAI手法により言語モデルの人間適合が進化 MetaとNYUの研究チームが、大規模言語モデル(LLM)の人間適合を強化するための新規的方法を開発しました。この方法は半オンライン強化学習を用いて、モデルの生成と学習の同期を柔軟に調整することで、効率的な訓練と高性能を両立させます。 人間適合の重要性 LLMは訓練後、さらなる適合フェーズが必要となります。このフェーズでは、モデルが人間のフィードバックやタスクの正確性に基づいて意思決定を行う強化学習が中心的役割を果たします。この微調整により、モデルはユーザーの期待に沿い、指示ベースのアプリケーションや精度の高い数理処理に適するようになります。 オフラインとオンライン方法の難点 既存の訓練方法はオフラインとオンラインの二つの極端に分かれています。オフライン方法は静的な事前生成データに依存し、訓練中に適応できないため性能に制限があります。一方、オンライン方法はリアルタイムで更新されますが、計算リソースが必要になることから、実験の負荷が増大します。さらに、可検証性の高い数理タスクと不可検証性の高いオープンエンドタスクの両方で高い性能を発揮させるのは、選択の複雑さを増加させます。 伝統的な適合アルゴリズム これまで、Direct Preference Optimization (DPO)やGroup Relative Policy Optimization (GRPO)が使用されてきました。DPOはオフラインで動作し、シンプルかつデータ効率的ですが、オンライン方法の適応性には欠けています。GRPOはPPOアルゴリズムに基づいており、グループ出力比較により相対的な有利性を計算することができます。しかし、そのオンポリシー性から計算負荷が高まり、実験が難しくなる一方です。 半オンライン方法の導入 研究チームは、半オンライン訓練セットアップによる解決策を探りました。この方法では、モデルの生成と訓練の同期頻度を調節することで、頻繁に更新するオンライン方法や全く更新しないオフライン方法の中間に位置付けます。これにより、訓練時間を削減しながら高いモデル適応能力を保つことができます。モジュール型の設定により、DPOやGRPOを課題固有の報酬モデルと共に柔軟に適用できます。 データセットと評価方法 Llama-3.1-8B-Instructモデルを用いて、オープンエンドの指示 FOLLOWINGと数学問題解消の二種類のタスクで微調整を実施しました。不可検証タスクではWildChat-1Mデータセットからユーザープロンプトがサンプリングされ、Athene-RM-8B報酬モデルによりスカラー得点が割り当てられます。可検証タスクではNuminaMathデータセットとMath-Verifyツールキットが使用され、生成された答えが期待される出力と一致するかどうか検証されます。訓練実験は32台のNVIDIA H200 GPUで Conductedされ、8台のGPUで推論が行われました。異なる同期インターバルのオフライン、半オンライン、オンライン設定が比較されました。 結果 数理タスクでの性能向上が観測されました。Math500において、オフラインDPOは53.7%の精度を示しましたが、半オンラインDPO(同期インターバルs=100)は58.9%に達しました。オンラインDPOとGRPOも同様に58.7%と58.1%の精度を達成しました。NuminaMathベンチマークでも、オフラインDPOが36.4%の成果を見せるのに対し、半オンラインDPO(同期インターバルs=10)は39.4%まで改善しました。非検証タスクのAlpacaEval 2.0とArena-Hardベンチマークでの評価でも、複数の報酬タイプを組み合わせた訓練設定が一貫して良い成果を示し、高い平均スコアを得ました。 有効性と汎用性 本研究は、LLMにオフラインやオンライン訓練のどちらの極端なアプローチに従う必要がないことを示しています。柔軟な同期スキームにより、計算コストを高くならずに多様なタスクで高性能を維持または向上させることが可能となりました。 MetaとNYUのこの研究成果は、言語モデルの訓練と適応に関する新的視点を提供しており、今後の研究や実際のアプリケーションに大きな影響を与える可能性があると専門家たちは評価しています。Metaは人工知能分野で継続的に先端的な研究をおこなっており、その技術力とイノベーション力は注目を集めています。 論文の詳細は、こちらをご覧ください。本研究の全てのクレジットは参加した研究者たちに帰属します。

Related Links