Command Palette

Search for a command to run...

13일 전

GVPO: 그룹 분산 정책 최적화를 활용한 대규모 언어 모델 후기학습

Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

GVPO: 그룹 분산 정책 최적화를 활용한 대규모 언어 모델 후기학습

초록

후기 훈련은 대규모 언어 모델을 특정 작업과 인간의 선호에 맞게 정교화하고 일치시키는 데 핵심적인 역할을 한다. 최근의 후기 훈련 기법, 예를 들어 그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)는 상대적 보상 점수를 활용한 증가된 샘플링을 통해 뛰어난 성능을 달성하고 있으나, 이러한 방법들은 훈련의 불안정성으로 인해 실용적 적용에 한계를 겪는 경우가 많다. 이에 따라 본 연구에서는 그룹 분산 정책 최적화(Group Variance Policy Optimization, GVPO)를 제안한다. GVPO는 KL 제약을 가진 보상 최대화 문제의 해석적 해를 그라디언트 가중치에 직접 통합함으로써 최적 정책과의 일치를 보장한다. 이 방법은 직관적인 물리적 해석을 제공한다: 그라디언트는 은닉 보상의 중심 거리와 실제 보상의 중심 거리 사이의 평균 제곱 오차를 반영한다. GVPO는 두 가지 주요 장점을 제공한다. (1) 유일한 최적해를 보장하며, 이는 정확히 KL 제약을 가진 보상 최대화 목적함수와 일치한다. (2) 온정책(On-policy) 및 중요도 샘플링(Importance sampling)의 한계를 피할 수 있는 유연한 샘플링 분포를 지원한다. 이론적 보장과 실용적 적응성의 통합을 통해 GVPO는 신뢰성 있고 다용도한 LLM 후기 훈련을 위한 새로운 패러다임을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
GVPO: 그룹 분산 정책 최적화를 활용한 대규모 언어 모델 후기학습 | 연구 논문 | HyperAI초신경