Command Palette
Search for a command to run...
Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu

초록
대규모 언어 모델(LLM)은 점점 더 검증 가능한 보상 기반 강화학습(RLVR)을 통해 훈련되고 있으나, 실세계 적용을 위해서는 레이블이나 외부 평가자 없이도 모델 스스로 개선할 수 있는 능력이 요구된다. 기존의 레이블 없이 작동하는 방법들인 신뢰도 최소화, 자기일관성, 다수결 목표 등은 학습의 안정성을 높이지만, 탐색 범위를 점차 축소시켜 엔트로피 붕괴(entrophy collapse)를 초래한다. 이는 생성 결과가 짧아지고, 다양성이 떨어지며 취약해지는 현상으로 이어진다. 기존의 테스트 시점 강화학습(TTRL)과 같이 현재의 레이블 없는 데이터셋에 모델을 적응시키는 방식과 달리, 본 연구의 목적은 더 포괄적이다. 즉, 모델의 본질적인 탐색 능력과 일반화 능력을 희생하지 않고도 지속적인 개선을 가능하게 하는 것이다. 이를 ‘진화(evolve)’라고 정의한다.이 문제를 체계적으로 정의하고, 레이블 없이도 안정성과 다양성을 동시에 확보할 수 있는 새로운 강화학습 프레임워크인 EVolution-Oriented and Label-free Reinforcement Learning(EVOL-RL)을 제안한다. EVOL-RL은 단순한 규칙으로, 레이블 없는 환경에서 안정성과 다양성의 균형을 유지한다. 이 방법은 다수결 기반의 답변을 안정적인 기준점(선택)으로 유지하면서, 이미 생성된 내용과 의미 공간에서 차이가 나는 추론을 선호하는 새로운 유형의 보상을 도입함으로써 다양성을 촉진한다. GRPO 기반으로 구현된 EVOL-RL은 강한 신호를 보존하기 위해 비대칭 클리핑(asymmetric clipping)을 사용하며, 탐색을 지속시키기 위해 엔트로피 정규화 항을 도입한다.이러한 ‘다수결로 선택 + 새로운 유형으로 다양성 확보’의 설계는 엔트로피 붕괴를 방지하고, 더 길며 정보량이 풍부한 사고 체인을 유지하며, pass@1과 pass@n 모두에서 성능을 향상시킨다. EVOL-RL은 단순히 다수결 기반의 TTRL 베이스라인을 능가할 뿐 아니라, 일관되게 우수한 성능을 보인다. 예를 들어, 레이블 없이 AIME24 데이터셋으로 훈련할 경우, Qwen3-4B-Base 모델의 AIME25에서 pass@1은 TTRL의 4.6%에서 16.4%로, pass@16은 18.5%에서 37.9%로 향상된다. EVOL-RL은 단순히 다양성 붕괴를 막는 데 그치지 않고, 다양한 영역(예: GPQA)에 걸쳐 더 강력한 일반화 능력을 제공한다. 또한, 본 연구는 EVOL-RL이 RLVR 환경에서도 성능 향상을 가져옴을 실험적으로 입증하며, 그 광범위한 적용 가능성을 보여준다.