Command Palette
Search for a command to run...
Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

要約
我々は、思考の過程(thinking traces)を潜在変数として扱い、変分推論によりそれらを最適化する変分推論フレームワークを提案する。尤度下界(ELBO)を出発点として、より緊密な境界を得るためのマルチ・トレース目的関数へと拡張し、変分事後分布の学習を安定化する前方KL(forward-KL)形式を提案する。さらに、拒否採択微調整(rejection sampling fine-tuning)および二値報酬強化学習(binary-reward RL)、特にGRPOを含む手法が、局所的な前方KL目的関数として解釈できることを示す。これらの手法では、導出過程から自然にモデルの精度に基づく重み付けが生じ、これまで注目されていなかった「容易な問題へのバイアス」が明らかになる。本手法は、Qwen 2.5およびQwen 3モデル系列を対象として、幅広い推論タスクにおいて実証的に検証された。総合的に本研究は、変分推論とRLスタイルの手法を統一する原理的な確率的視点を提供し、言語モデルの推論能力を向上させるために安定した目的関数を実現する。実装コードは以下のURLから公開されている:https://github.com/sail-sg/variational-reasoning。