Command Palette

Search for a command to run...

그룹 분산 전략 최적화 GVPO

날짜

10일 전

기관

홍콩과학기술대학교(광저우)

논문 URL

2504.19599

그룹 분산 정책 최적화(GVPO)는 2025년 4월 Zuoyebang 팀이 홍콩과학기술대학교(광저우)와 협력하여 제안했습니다. 관련 연구 결과는 논문 "..."에 게재되었습니다.GVPO: 대규모 언어 모델 사후 학습을 위한 그룹 분산 정책 최적화", NeurIPS 2025에 수락되었습니다.

GVPO는 KL 제약 조건 하의 보상 극대화를 위한 분석적 해를 그래디언트 가중치에 직접 통합하여 최적 정책과의 일관성을 보장합니다. 이 방법은 직관적인 물리적 해석을 제공합니다. 그래디언트는 암묵적 보상 중심 거리와 실제 보상 중심 거리 사이의 평균 제곱 오차를 반영합니다. GVPO는 두 가지 주요 장점을 가지고 있습니다. 첫째, 고유한 최적 해, 즉 KL 제약 조건 하의 보상 극대화 목표를 보장합니다. 둘째, 정책 및 중요도 샘플링에 따른 제약을 피하면서 유연한 샘플링 분포를 지원합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
그룹 분산 전략 최적화 GVPO | 백과사전 | HyperAI초신경