Command Palette
Search for a command to run...
Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

초록
최근 DeepSeek-R1의 성공과 개방성은 대규모 추론 모델(LRMs)을 위한 강화학습 방법으로서 그룹 상대 정책 최적화(GRPO)에 대한 광범위한 주목을 이끌어냈다. 본 연구에서는 이진 보상 설정 하에서 GRPO 목적함수를 분석하고, 질문 수준의 난이도 편향이라는 내재적 한계를 밝혀냈다. 또한 GRPO가 지도학습의 전통적 구분 학습 방법과의 관련성을 확인하였다. 이러한 통찰을 바탕으로, 구분 학습의 원리를 기반으로 한 새로운 구분 제약 최적화(DisCO) 프레임워크를 제안한다. DisCO와 GRPO 및 그 최신 변종들 간의 주요 차이점은 다음과 같다: (1) 그룹 상대 목적함수를 점수 함수에 의해 정의된 구분 목적함수로 대체한다; (2) 클리핑 기반의 대체 목적함수를 버리고, 점수 함수로 사용되는 클리핑 없는 강화학습 대체 목적함수를 도입한다; (3) KL 발산 제약을 강제하기 위해 간단하면서도 효과적인 제약 최적화 방법을 활용한다. 그 결과 DisCO는 GRPO 및 그 변종들에 비해 두드러진 장점을 제공한다: (i) 구분 목적함수를 채택함으로써 난이도 편향을 완전히 제거한다; (ii) 클리핑 없는 점수 함수와 제약 최적화 접근법을 통해 GRPO 및 그 변종에서 발생하는 엔트로피 불안정성을 해결하여 장기적이고 안정적인 학습 동역학을 구현한다; (iii) 데이터 불균형 문제를 해결하기 위해 고급 구분 학습 기법을 쉽게 통합할 수 있다. 특히 학습 과정에서 많은 질문들에 대해 생성된 음성 답변이 양성 답변보다 더 많은 경우에도 효과적으로 대응할 수 있다. SFT 미세조정된 모델의 수학적 추론 능력 향상을 위한 실험 결과, DisCO는 GRPO 및 그 개선된 변종인 DAPO를 크게 상회하며, 1.5B 규모 모델에 대해 6개의 벤치마크 과제에서 평균적으로 GRPO 대비 7%, DAPO 대비 6%의 성능 향상을 달성하였다.