Command Palette
Search for a command to run...
Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

초록
보상의 검증 가능성을 갖춘 강화학습(RLVR)은 대규모 언어모델(LLM)의 추론 능력을 강화하지만, 학습 과정에서 종종 {엔트로피 붕괴}와 {엔트로피 폭발} 사이를 진동하게 된다. 우리는 이러한 두 가지 위험 요소가 보상 독립형 강화학습(예: GRPO 및 DAPO)에서 사용되는 평균 기준선(mean baseline)에 기인함을 규명하였으며, 이는 보상 이상치 상황에서 음의 우위(advantage) 샘플에 부적절한 처벌을 초래함으로써 발생한다. 이를 해결하기 위해 우리는 {분위수 우위 추정}(QAE)을 제안한다. QAE는 평균 기준선을 그룹별 K-분위수 기준선으로 대체함으로써, 응답 수준에서 두 가지 제어 모드를 유도한다. 어려운 질의에서는(확률 p ≤ 1 − K) 드문 성공 사례를 강화하고, 쉬운 질의에서는(확률 p > 1 − K) 잔여 실패 사례를 집중적으로 타깃으로 삼는다. 일차적 소프트맥스 업데이트 하에서, 우리는 {양측 엔트로피 안전성}(two-sided entropy safety)을 입증하였으며, 이는 한 스텝 내 엔트로피 변화에 하한과 상한을 제공함으로써 폭발을 억제하고 붕괴를 방지한다. 실험적으로, 이 최소한의 수정은 엔트로피의 안정화를 가져오며, 신용 할당을 희소화한다(적절한 K 설정 시, 응답의 약 80%가 0의 우위를 갖게 됨). 또한 Qwen3-8B/14B-Base 모델에서 AIME 2024/2025 및 AMC 2023 데이터셋을 대상으로 지속적인 pass@1 성능 향상을 달성한다. 본 연구 결과는 RLVR의 확장성에 있어 {기준선 설계}가 토큰 수준의 휴리스틱보다 더 핵심적인 메커니즘임을 밝혀낸다.