HyperAI超神経
Back to Headlines

ASTROがLlama 3の論理的思考能力を16%~20%向上させる新手法

2日前

記事のリライト 大規模言語モデル(LLM)の推論能力をアーキテクチャの変更なく向上させるのは、AIの調整と機能性向上における核心的な課題です。Meta AIとワシントン大学の研究者たちは最近、Llama-3.1-70B-Instructの推論力を向上させる新しいフレームワーク「ASTRO(Autoregressive Search-Taught Reasoner)」を提案しました。ASTROは、模型内検索、自己反省、バックトラッキングといった、人間の問題解決や伝統的なシンボリック検索アルゴリ즘ムによく見られるメカニズムをモデルに教授します。 モンテカルロ木探索を利用した思考チェーン生成 ASTROの方法論は、モンテカルロ木探索(MCTS)を利用して数理解答の過程を探ります。この探索は正解と不正解の推論パスを両方カバーします。ASTROの主な革新点は「手続きクローン」です。探索木は長い思考チェーン(CoT)に線形化され、自己反省とバックトラッキングによる失敗と回復が自然に符号化されます。これらの線形化されたトレースは自然言語に書き換えられ、監視付き微調整(SFT)の基礎となります。 監視付き微調整:探索事前情報の注入 ASTROは、MATH、AMC/AIME、およびAoPS様式のデータセットから抽出した36,100のキュレーションされたCoTソリューションを使ってLlama-3.1-70B-Instructを微調整します。ASTRO-SFTによって訓練されたモデルは、基準モデルやSPOC/Step-KTO変種(明示的な探索事前情報なし)を競り落とすか競い合う性能を発揮します。特に、SFTのみで強化学習(RL)なしでも、探索構造化された推論データへの曝露によってパフォーマンスが向上することが確認されています。 探索認識の初期化を使った強化学習 さらに、ASTROはSFTからのチェックポイントで初期化し、改変されたグループ相対方策最適化(GRPO)を用いてRLループを実行します。通常の好みに基づくRLとは異なり、ASTROは検証可能な報酬信号(正解:+1、不正解:-1)を8,700個の中程度の難易度のプロンプトで用います。訓練中、モデルのCoT生成は平均1,800トークンから6,000トークンへと増加し、より深い内部探査が行われることを示しています。 非常に関連性の高いバックトラッキング行動 特筆すべき実証観察として、バックトラッキングの頻度と性能の間に正の相関があることが挙げられます。訓練が進むにつれて、ASTRO-RLはより多くの自己修正行動を示し、深い探査を行います。ベンチマークでのピアソン相関係数は0.8を超え、自己反省とバックトラッキングがただの装飾的な行為ではなく、精度向上に機能的な関連性があることを示しています。 比較実験と広範な影響 ASTROと探索事前情報がない直接CoTソリューションで訓練されたモデルの比較実験では、同じ問題セットや探索木を使用しても、ASTROが一貫して優れた性能を示すことが明らかになりました。ASTRO-RLはDirect-RLを凌駕し、その差は以下のように明らかです: - MATH: +16% - AMC/AIME: +20% さらに、ASTROの出力結果は向き付きグラフで可視化でき、推論ステップがノードとして、遷移・反省・訂正がエッジとして表されます。これにより、モデルの解釈性が向上します。 結論 ASTROは、Llama 3のようなLLMがより効果的に推論を行うためには、大きなモデルや長期的な事前学習だけでなく、原理に基づいたポストトレーニング技法が必要であることを示しています。探索アルゴリズムを自然言語で模倣することで、ASTROはモデルに思考して回答する前に自問自答し、途中で自己の推論を訂正する能力を付与します。このフレームワークは、オープンソースのLLMを人間的な推論に近づける新しいベンチマークを設定しています。 詳細については、論文をお読みください。この研究成果に対するすべての賞賛は、本プロジェクトの研究者たちに向けられます。また、ぜひ私たちのTwitterをフォローし、100k+ ML Redditのメンバーになるか、News Letterの購読をお願いします。

Related Links