Command Palette

Search for a command to run...

15日前

SofT-GRPO:Gumbel再パラメータ化によるソフト・シンキング方策最適化を用いた離散トークンLMM強化学習の超越

Zhi Zheng Wee Sun Lee

SofT-GRPO:Gumbel再パラメータ化によるソフト・シンキング方策最適化を用いた離散トークンLMM強化学習の超越

要約

大規模言語モデル(LLM)の「ソフト思考(soft-thinking)」パラダイムは、特定のシナリオにおいて従来の離散トークン型の連鎖的思考(Chain-of-Thought, CoT)推論を上回る性能を発揮することがあり、その研究的・応用的価値が示唆されている。しかし、離散トークン型CoT推論は、グループ相対的方策最適化(Group Relative Policy Optimization, GRPO)などの強化学習アルゴリズムによって強化可能である一方、ソフト思考パターンに強化学習(RL)を適用する試みは依然として困難である。この困難さの原因は、ソフト思考トークンに確率的性質を導入する際の複雑さ、およびそれに伴うソフト思考方策の更新の難しさに起因する。その結果、これまでのソフト思考とGRPOの組み合わせに関する試みは、一般的に離散トークン型GRPOに比べて性能が劣ることが多かった。ソフト思考の潜在能力を完全に引き出すために、本稿では新たな方策最適化アルゴリズム「SofT-GRPO」を提案する。SofT-GRPOは、ロジットにGumbelノイズを注入し、Gumbel-Softmax技術を用いて事前学習済み埋め込み空間外のソフト思考トークンを回避するとともに、方策勾配法における再パラメータ化トリックを活用する。本研究では、1.5Bから7Bパラメータ規模のベースLLMを対象に実験を実施した結果、SofT-GRPOはソフト思考型LLMがPass@1において平均で+0.13%の精度向上を達成し、離散トークン型GRPOをわずかに上回ることを示した。さらに、Pass@32においては平均で+2.19%の顕著な性能向上が観察された。コードとモデル重みは、https://github.com/zz1358m/SofT-GRPO-master にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SofT-GRPO:Gumbel再パラメータ化によるソフト・シンキング方策最適化を用いた離散トークンLMM強化学習の超越 | 論文 | HyperAI超神経