Command Palette

Search for a command to run...

13日前

拡散大規模言語モデルに対するインペイント誘導型ポリシー最適化

拡散大規模言語モデルに対するインペイント誘導型ポリシー最適化

要約

マスク付き拡散型大規模言語モデル(dLLM)は、自己回帰型LLMの有望な代替手段として注目されており、競争力ある性能を発揮しつつ、インペイント(穴埋め)を含む独自の生成機能を提供する。本研究では、インペイントがdLLM向け強化学習(RL)アルゴリズム設計にどのように貢献できるかを検討する。LLMと強化学習の統合には、探索の課題が伴う。すなわち、正解の解法に到達できない場合、報酬信号が疎になり、サンプルの無駄が生じる。この非効率性はLLM全体に共通する問題ではあるが、dLLMは特段の機会を提供する。すなわち、インペイント機能を用いて探索を導くことが可能である。本研究では、オンラインサンプリング中に部分的な正解の推論経路を戦略的に挿入するIGPO(Inpainting Guided Policy Optimization)と呼ばれるRLフレームワークを提案する。完全な解を提示するのではなく、インペイントにより、モデルの自己生成推論を保持しつつ、有望な経路空間へ探索を誘導する。これにより、教師あり微調整と強化学習の間の橋渡しを実現する。IGPOは、GRPOのようなグループベース最適化手法に適用可能であり、探索失敗によって生じるゼロの報酬と勾配の問題を解消する。IGPOは意味のある勾配を回復しつつ、サンプル効率を向上させる。さらに、dLLMの生成特性とより整合性の高い簡潔な推論経路を人工的に再構成し、その上での教師あり微調整を提案する。エントロピーに基づくフィルタリングなどの付加的技術を併用することで、GSM8K、Math500、AMCの3つの数学ベンチマークにおいて顕著な性能向上が得られ、全アテンション型マスク付きdLLMにおいて、新たなSOTA(最良の成果)を達成した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
拡散大規模言語モデルに対するインペイント誘導型ポリシー最適化 | 論文 | HyperAI超神経