Command Palette

Search for a command to run...

2달 전

DCPO: 동적 클리핑 정책 최적화

Shihui Yang Chengfeng Dou Peidong Guo Kai Lu Qiang Ju Fei Deng Rihui Xin

DCPO: 동적 클리핑 정책 최적화

초록

검증 가능한 보상에 기반한 강화학습(Reinforcement Learning from Verifiable Rewards, RLVR)은 대규모 언어 모델의 추론 능력을 향상시키기 위한 유망한 프레임워크로 부상하고 있다. 그러나 기존의 접근 방식인 GRPO 등은 종종 0 gradient(기울기) 문제에 직면한다. 이 문제는 주로 토큰 수준의 확률 비율에 대해 고정된 클리핑 경계를 사용하고, 동일한 보상을 표준화하는 데 기인한다. 이러한 현상은 효과적인 기울기 업데이트를 방해하고 생성된 응답의 활용도를 낮추는 결과를 초래할 수 있다. 본 연구에서는 토큰별 사전 확률에 기반하여 클리핑 경계를 적응적으로 조정하는 동적 클리핑 전략과, 누적 학습 단계를 통틀어 보상을 부드럽게 표준화하는 기술을 도입한 동적 클리핑 정책 최적화(Dynamic Clipping Policy Optimization, DCPO)를 제안한다. 이는 토큰 수준의 탐색을 강화하고, 생성된 응답의 응답 수준에서의 효과적 활용도를 향상시킨다. DCPO는 네 가지 다른 모델 기반의 네 가지 벤치마크에서 최신 기준 성능을 달성하였다. 특히, Qwen2.5-Math-7B 모델 기준 AIME24 벤치마크에서 탐욕적 디코딩(Greedy Decoding) 시 평균 정확도(Avg@1)는 46.7, 32회 샘플링 시(Avg@32)는 38.8을 기록하며, DAPO(36.7/31.6)와 GRPO(36.7/32.1)를 모두 상회하였다. 또한 Qwen2.5-14B 기반의 AIME25 벤치마크에서는 (23.3/19.0)의 성능을 달성하여 GRPO(13.3/10.5)와 DAPO(20.0/15.3)를 모두 능가하였다. 더불어 DCPO는 네 가지 모델에서 GRPO 대비 비영 제 Advantage(비영 제 보상) 평균 28% 향상을 달성하였으며, DAPO 대비 학습 효율을 두 배로 향상시켰고, GRPO 및 DAPO 대비 토큰 클리핑 비율을 한 단계 낮춰 뚜렷한 성능 우위를 확보하였다. 이러한 결과는 DCPO가 대규모 언어 모델의 강화학습에서 생성된 데이터를 보다 효율적으로 활용할 수 있음을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
DCPO: 동적 클리핑 정책 최적화 | 연구 논문 | HyperAI초신경