Command Palette
Search for a command to run...
Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

초록
후기 훈련은 대규모 언어 모델을 특정 작업과 인간의 선호에 맞게 정교화하고 일치시키는 데 핵심적인 역할을 한다. 최근의 후기 훈련 기법, 예를 들어 그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)는 상대적 보상 점수를 활용한 증가된 샘플링을 통해 뛰어난 성능을 달성하고 있으나, 이러한 방법들은 훈련의 불안정성으로 인해 실용적 적용에 한계를 겪는 경우가 많다. 이에 따라 본 연구에서는 그룹 분산 정책 최적화(Group Variance Policy Optimization, GVPO)를 제안한다. GVPO는 KL 제약을 가진 보상 최대화 문제의 해석적 해를 그라디언트 가중치에 직접 통합함으로써 최적 정책과의 일치를 보장한다. 이 방법은 직관적인 물리적 해석을 제공한다: 그라디언트는 은닉 보상의 중심 거리와 실제 보상의 중심 거리 사이의 평균 제곱 오차를 반영한다. GVPO는 두 가지 주요 장점을 제공한다. (1) 유일한 최적해를 보장하며, 이는 정확히 KL 제약을 가진 보상 최대화 목적함수와 일치한다. (2) 온정책(On-policy) 및 중요도 샘플링(Importance sampling)의 한계를 피할 수 있는 유연한 샘플링 분포를 지원한다. 이론적 보장과 실용적 적응성의 통합을 통해 GVPO는 신뢰성 있고 다용도한 LLM 후기 훈련을 위한 새로운 패러다임을 제시한다.