Command Palette

Search for a command to run...

한 달 전

MAPO: 혼합 우위 정책 최적화

MAPO: 혼합 우위 정책 최적화

초록

최근 기초 모델에 대한 강화 학습 기술의 발전, 예를 들어 그룹 상대적 정책 최적화(Group Relative Policy Optimization, GRPO)의 등장은 기초 모델의 추론 과제 수행 성능을 크게 향상시켰다. 특히 GRPO에서 우월성 함수(advantage function)는 경로의 중요도를 순위화하는 핵심 메커니즘으로 작용한다. 그러나 기존의 접근 방식은 우월성 역전(advantage reversal)과 우월성 거울 현상(advantage mirror)이라는 문제를 겪으며, 다양한 쿼리 샘플 간에 합리적인 우월성 할당이 어려워지고 있다. 본 연구에서는 간단하면서도 효과적인 GRPO 전략인 혼합 우월성 정책 최적화(Mixed Advantage Policy Optimization, MAPO)를 제안한다. 우리는 경로의 확신도가 샘플에 따라 다르게 나타난다는 점을 밝히고, 확신도가 높은 경로를 가진 샘플에 대해 우월성 백분율 편차(advantage percent deviation)를 도입한다. 더불어, 경로의 확신도에 따라 우월성 함수를 동적으로 재가중함으로써, 샘플별 특성에 적응적으로 우월성 함수를 구성한다. 제안한 방법의 효과성을 검증하기 위해 최신 기술과의 비교 실험 및 다양한 우월성 변형에 대한 제거 실험(ablation study)를 수행하였으며, 그 결과 본 방법의 유용성이 입증되었다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MAPO: 혼합 우위 정책 최적화 | 연구 논문 | HyperAI초신경