Command Palette
Search for a command to run...
소프트 적응형 정책 최적화
소프트 적응형 정책 최적화
Chang Gao Chujie Zheng Xiong-Hui Chen Kai Dang Shixuan Liu Bowen Yu An Yang Shuai Bai Jingren Zhou Junyang Lin
초록
강화학습(RL)은 대규모 언어모델(LLM)의 추론 능력을 향상시키는 데 점점 더 중요한 역할을 하고 있지만, 안정적이고 효율적인 정책 최적화는 여전히 도전 과제이다. 토큰 단위의 중요도 비율은 일반적으로 높은 분산을 보이며, 특히 전문가 집합 모델(Mixture-of-Experts, MoE)에서는 이 현상이 더욱 심화되어 안정적인 업데이트를 어렵게 한다. 기존의 그룹 기반 정책 최적화 방법인 GSPO 및 GRPO는 하드 클리핑(hard clipping)을 통해 이 문제를 완화하고 있으나, 이로 인해 안정성과 효과적인 학습 사이의 균형을 유지하기 어렵다는 한계가 있다. 본 연구에서는 하드 클리핑을 대체하여 온도 조절 가능한 부드러운 게이트를 도입한 소프트 적응형 정책 최적화(Soft Adaptive Policy Optimization, SAPO)를 제안한다. 이 방법은 비정책적 업데이트를 적응적으로 감쇠시키면서도 유용한 학습 신호를 유지함으로써 안정성과 학습 효율성을 동시에 확보한다. GSPO 및 GRPO와 비교했을 때, SAPO는 시퀀스 수준의 일관성과 토큰 수준의 적응성을 모두 갖춘 특징을 지닌다. GSPO와 마찬가지로 SAPO는 시퀀스 수준의 일관성을 유지하지만, 하드 클리핑에 의존하는 취약한 신뢰 영역 대신 연속적인 신뢰 영역을 형성한다. 특정 시퀀스 내에 일부 매우 비정책적인 토큰이 포함된 경우 GSPO는 해당 시퀀스의 모든 그래디언트를 억제하지만, SAPO는 오직 문제가 되는 토큰만 선택적으로 가중치를 낮추고 정책에 근접한 토큰들로부터의 학습 신호는 유지함으로써 샘플 효율성을 향상시킨다. GRPO와 비교하면, SAPO는 하드 토큰 단위 클리핑 대신 부드럽고 온도 조절 가능한 스케일링을 사용하여 더 정보량이 풍부하고 안정적인 업데이트를 가능하게 한다. 수학적 추론 벤치마크에서의 실험 결과는 SAPO가 동일한 학습 예산 하에서도 더 뛰어난 학습 안정성과 높은 Pass@1 성능을 보임을 확인하였다. 또한 본 연구에서는 Qwen3-VL 모델 시리즈에 SAPO를 적용하여, 다양한 작업 및 서로 다른 모델 크기에서 일관된 성능 향상이 이루어짐을 실험적으로 입증하였다. 종합적으로, SAPO는 LLM의 강화학습 훈련을 위한 더욱 신뢰성 있고 확장 가능하며 효과적인 최적화 전략을 제공한다.