Command Palette

Search for a command to run...

グループ分散戦略最適化 GVPO

日付

10日前

組織

香港科技大学(広州)

論文URL

2504.19599

タグ

グループ分散ポリシー最適化 (GVPO) は、2025 年 4 月に Zuoyebang チームと香港科技大学 (広州) の共同研究により提案されました。関連する研究結果は論文「...」に掲載されました。GVPO: 大規模言語モデル学習後のグループ分散ポリシー最適化」がNeurIPS 2025に採択されました。

GVPOは、KL制約付き報酬最大化の解析解を勾配重みに直接組み込み、最適方策との整合性を確保します。この手法は直感的な物理的解釈を提供します。つまり、勾配は暗黙的な報酬中心距離と実際の報酬中心距離の平均二乗誤差を反映します。GVPOには2つの重要な利点があります。1つ目は、KL制約付き報酬最大化目標という唯一の最適解を保証することです。2つ目は、柔軟なサンプリング分布をサポートし、方策や重要度サンプリングによる制限を回避できることです。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
グループ分散戦略最適化 GVPO | 百科事典 | HyperAI超神経