Command Palette
Search for a command to run...
グループ分散戦略最適化 GVPO
グループ分散ポリシー最適化 (GVPO) は、2025 年 4 月に Zuoyebang チームと香港科技大学 (広州) の共同研究により提案されました。関連する研究結果は論文「...」に掲載されました。GVPO: 大規模言語モデル学習後のグループ分散ポリシー最適化」がNeurIPS 2025に採択されました。
GVPOは、KL制約付き報酬最大化の解析解を勾配重みに直接組み込み、最適方策との整合性を確保します。この手法は直感的な物理的解釈を提供します。つまり、勾配は暗黙的な報酬中心距離と実際の報酬中心距離の平均二乗誤差を反映します。GVPOには2つの重要な利点があります。1つ目は、KL制約付き報酬最大化目標という唯一の最適解を保証することです。2つ目は、柔軟なサンプリング分布をサポートし、方策や重要度サンプリングによる制限を回避できることです。