Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin

要約
推論時の計算量をスケーリングすることで、大規模言語モデル(LLM)は強力な推論性能を達成できるようになったが、本質的に逐次的なデコード構造により、特に複雑なタスクでは顕著な遅延が生じる問題がある。近年の適応的並列推論に関する研究では、有益な場合に問題解決プロセスを並列な推論スレッドに分解することで、推論効率を向上させる試みがなされている。しかし、現実のタスクにおける既存手法は、監督学習に基づく行動クラーニングに限定されているものが多く、また広く用いられている逐次的長鎖推論(CoT)ベースラインと比較して著しい精度の低下を示す場合がある。さらに、多くの手法はカスタム推論エンジンを必要とし、展開の複雑さを増している。本研究では、精度が同規模の代表的な逐次推論モデルと同等でありながら、推論遅延を大幅に削減できる「ThreadWeaver」という、適応的並列推論のためのフレームワークを提案する。ThreadWeaverの優れた性能は、以下の3つの鍵となる革新に起因する:1)大規模かつ高品質なCoTデータを並列アノテーション付きで生成する二段階並列軌道生成器;2)トライ木(trie)に基づくトレーニング・インフェレンス共同設計により、位置埋め込みやKVキャッシュを変更することなく、任意の市販の自己回帰型推論エンジン上で並列推論を実現可能にした点;3)並列化を意識した強化学習フレームワークにより、モデルが精度と効果的な並列化のバランスを学習できるようにした点。6つの困難な数学的推論ベンチマークにおいて、Qwen3-8Bを基盤に訓練したThreadWeaverは、最先端の逐次推論モデルと同等の精度(平均71.9%、AIME24では79.9%)を達成しつつ、トークン遅延において最大1.53倍の平均速度向上を実現した。これにより、精度と効率の新たなパレート最適境界が確立された。