Pass@1을 넘어서: 변분 문제 합성과 자가 플레이가 지속하는 RLVR

최근 들어, 복잡한 추론 과제에 적합한 후기 훈련(Large Language Models, LLMs)을 위한 핵심 패러다임으로 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(RLVR)이 부상하고 있다. 그러나 기존의 RLVR 훈련 방식은 Pass@1 성능을 향상시키는 대신 정책의 엔트로피를 감소시켜 생성 다양성이 저하되고, 이는 일반적으로 LLM의 추론 능력 상한을 나타내는 Pass@k 성능을 제한하는 원인이 된다. 본 논문에서는 훈련 문제의 관점에서 정책의 생성 다양성 문제를 체계적으로 분석한 결과, 훈련 문제를 보강하고 지속적으로 업데이트함으로써 엔트로피 붕괴 현상을 완화할 수 있음을 확인하였다. 이러한 관찰을 바탕으로, 정책이 올바르게 해결한 문제를 활용해 변이형 문제를 자동 생성하면서도 참조 답은 원래 문제와 동일하게 유지하는 온라인 자기대결형 변이 문제 생성(Self-play with Variational problem Synthesis, SvS) 전략을 제안한다. 이 자체 개선 전략은 훈련 과정 중 정책 엔트로피를 효과적으로 유지하며, 기존 RLVR 대비 Pass@k 성능을 크게 향상시킨다. 특히, 경쟁 수준의 AIME24 및 AIME25 벤치마크에서 Pass@32 성능을 각각 18.3%, 22.8% 절대적으로 향상시켜 지속적인 성능 향상을 달성하였다. 3B에서 32B까지 다양한 모델 규모를 갖춘 12개의 추론 벤치마크에서 수행된 실험은 SvS 전략의 일반화 능력과 강건성을 일관되게 입증한다.