1ヶ月前

変分推論による言語モデル

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

要約

我々は、思考の過程（thinking traces）を潜在変数として扱い、変分推論によりそれらを最適化する変分推論フレームワークを提案する。尤度下界（ELBO）を出発点として、より緊密な境界を得るためのマルチ・トレース目的関数へと拡張し、変分事後分布の学習を安定化する前方KL（forward-KL）形式を提案する。さらに、拒否採択微調整（rejection sampling fine-tuning）および二値報酬強化学習（binary-reward RL）、特にGRPOを含む手法が、局所的な前方KL目的関数として解釈できることを示す。これらの手法では、導出過程から自然にモデルの精度に基づく重み付けが生じ、これまで注目されていなかった「容易な問題へのバイアス」が明らかになる。本手法は、Qwen 2.5およびQwen 3モデル系列を対象として、幅広い推論タスクにおいて実証的に検証された。総合的に本研究は、変分推論とRLスタイルの手法を統一する原理的な確率的視点を提供し、言語モデルの推論能力を向上させるために安定した目的関数を実現する。実装コードは以下のURLから公開されている：https://github.com/sail-sg/variational-reasoning。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

変分推論による言語モデル

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

要約

AI で AI を構築

Hyper Newsletters