HyperAI

大規模言語モデル（LLM）の推論能力を、特にパラメータ制約下で向上させることは、実世界における応用において極めて重要である。これまでの研究では、各トークンに対して固定回数の追加反復処理を割り当てることで生成品質を向上させる「再帰的トランスフォーマー（recurrent transformers）」が提案されている。標準的な1回目の前向き伝搬後、出力トークンを即座に生成するのではなく、最終層の隠れ状態をフィードバックし、追加の反復処理を実行することで、トークン予測を精緻化する。しかし本研究では、このようなプロセスにおいて「潜在的な過剰思考（latent overthinking）」という現象を発見した。すなわち、最初の前向き伝搬ですでに正しく予測されている簡単なトークンについても、追加の反復処理によって誤りに修正されることがある。これを解決するために、我々は「Think-at-Hard（TaH）」という動的な潜在的思考手法を提案する。TaHは、困難なトークンのみに対して深層的な反復処理を実施する。具体的には、標準的な前向き伝搬後に誤りの可能性が高いと予測されるトークンに対してのみ、軽量なニューラル決定器（neural decider）が反復処理をトリガーする。潜在的反復処理中には、低ランク適応（LoRA）モジュールを用いて、LLMの目的を一般的な次トークン予測から「困難なトークンの集中的精緻化」へと変更する。さらに、トークン列の次元に加え、反復深度の次元を拡張する「二重因果的アテンション（duo-causal attention）」機構を導入した。これにより、反復間の情報伝達が可能となりながらも、完全な逐次並列性を維持する。実験の結果、TaHは5つの難易度の高いベンチマークにおいてLLMの推論性能を向上させ、パラメータ数は従来と同一のままにした。すべての出力トークンに対して2回の反復を行う従来手法と比較して、TaHは94%のトークンを2回目の反復から除外しつつ、8.1～11.3%の精度向上を達成した。また、同様のデータで微調整された強力な単一反復型Qwen3モデルと比較しても、4.0～5.0%の精度向上を示した。LoRAと反復決定器による追加パラメータが3%未満に抑えられる条件下では、精度向上はそれぞれ8.5～12.6%および5.3～5.4%にまで拡大した。本研究のコードは、https://github.com/thu-nics/TaH にて公開されている。

Think-at-Hard：推論言語モデルの性能向上のための選択的ラテン反復手法

Tianyu Fu Yichen You Zekai Chen Guohao Dai Huazhong Yang Yu Wang

要約

AI で AI を構築

Hyper Newsletters

Command Palette

Think-at-Hard：推論言語モデルの性能向上のための選択的ラテン反復手法

Tianyu Fu Yichen You Zekai Chen Guohao Dai Huazhong Yang Yu Wang

要約

AI で AI を構築

Hyper Newsletters