Command Palette

Search for a command to run...

13日前

GVPO:大規模言語モデル微調整のためのグループ分散方策最適化

Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

GVPO:大規模言語モデル微調整のためのグループ分散方策最適化

要約

後学習は、大規模言語モデルを特定のタスクや人間の好みに合わせて精密調整する上で重要な役割を果たす。近年の後学習技術の進展、例えば相対的報酬スコアリングを用いたサンプリングを拡張するグループ相対方策最適化(GRPO)は、優れた性能を達成しているが、しばしば訓練の不安定性を引き起こし、実用的な導入を制限している。このような課題を踏まえ、本研究ではグループ分散方策最適化(GVPO)を提案する。GVPOは、KL制約付き報酬最大化問題の解析解を勾配重みに直接組み込むことで、最適方策との整合性を確保している。本手法には直感的な物理的解釈が可能であり、その勾配は、暗黙の報酬の中心距離と実際の報酬の中心距離の間の平均二乗誤差に類似している。GVPOの主な利点は以下の2点である:(1)一意の最適解が保証され、それはまさにKL制約付き報酬最大化の目的関数と一致する;(2)ポリシー依存のサンプリングや重要度サンプリングの制約を回避できる柔軟なサンプリング分布のサポート。理論的保証と実用的な柔軟性を統合することで、GVPOは信頼性と汎用性に優れたLLM後学習の新しいパラダイムを確立した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
GVPO:大規模言語モデル微調整のためのグループ分散方策最適化 | 論文 | HyperAI超神経