Command Palette

Search for a command to run...

23日前

メタ認識が推論モデルを向上させる:自己整合強化学習

Yoonjeon Kim Doohyuk Jang Eunho Yang

メタ認識が推論モデルを向上させる:自己整合強化学習

要約

最近の推論モデルに関する研究では、言語モデルが自らどのように思考すべきかを認識する能力、すなわち「メタ認識(meta-awareness)」に注目が集まっている。本研究では、大規模な推論モデルがこのメタ認識能力を欠いていることを、真の展開(true rollouts)と予測されたメタ情報との間に著しい不整合が生じることで実証する。さらに、メタ予測を真の展開と一致させることが、顕著な性能向上をもたらすと提唱する。この仮説を検証するため、自己整合(Self-Alignment)を用いてメタ認識を強化する訓練パイプライン「MASA(Meta-Awareness via Self-Alignment)」を設計し、強化されたメタ認識が精度の向上に直接寄与することを証明した。既存のメタ認知型推論モデルとは異なり、本手法は外部の訓練データを必要とせず、自ら生成した信号のみを用いてメタ認識を訓練する。さらに、本手法は以下の2つの点で効率的な訓練を実現する:(i) 事実上無意味または解けない零分散のプロンプトを除外し、(ii) 正解に至る可能性が低い長大な展開を早期に打ち切る。実験結果は有望である。本戦略は、ドメイン内タスクにおいて精度と訓練効率の両面で顕著な向上をもたらし、ドメイン外のベンチマークにも強い汎化性能を示した。具体的には、GRPOの訓練を1.28倍以上高速化しつつ同等の性能を達成でき、AIME25では精度を19.3%向上させ、6つの数学ベンチマークにおいて平均6.2%の精度向上を達成した。メタ認知的なガイドラインを用いた訓練はドメイン外の汎化性能を強化し、GPQA-Diamondでは3.87%の向上、論理的・科学的・コーディングを含む13のベンチマーク全体で平均2.08%の精度向上をもたらした。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
メタ認識が推論モデルを向上させる:自己整合強化学習 | 論文 | HyperAI超神経