Command Palette
Search for a command to run...
짧지만 더 나쁘지 않다: 수학 RLVR에서 쉬운 샘플을 길이 정규화 요소로 활용한 절약형 추론
짧지만 더 나쁘지 않다: 수학 RLVR에서 쉬운 샘플을 길이 정규화 요소로 활용한 절약형 추론
Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang
초록
단계별 추론을 위해 훈련된 대규모 언어 모델(LLM)은 종종 과도하게 긴 출력을 생성하여 추론 비용이 증가하는 문제가 발생한다. 기존의 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(RLVR) 파이프라인은 훈련 효율성을 높이기 위해 '쉬운' 문제들을 제거하는 방식을 채택한다. 이로 인해 모델은 주로 더 어려운 문제, 즉 긴 추론 체인을 필요로 하는 문제들에 집중하여 훈련되며, 결과적으로 출력 길이 분포가 상향으로 편향된다. 이는 모델이 '더 오래 생각하는 것'을 '더 잘 생각하는 것'과 동일시하게 만든다. 본 연구에서는 중간 정도로 쉬운 문제들을 유지하고 약간 더 높은 가중치를 부여하는 방식이 간접적인 길이 정규화 효과를 발휘함을 보여준다. 짧은 추론 체인으로 해결 가능한 문제들에 지속적으로 노출됨으로써 모델의 출력 분포가 제한되며, 과도한 길이 증가를 방지할 수 있다. 그 결과, 명시적인 길이 페널티 없이도 '자발적인 간결성'이 자연스럽게 나타나는 현상이 발생한다. 즉, 모델은 출력 길이를 늘리지 않으면서도 어려운 문제를 효과적으로 해결할 수 있게 된다. Qwen3-4B-Thinking-2507(16k 토큰 제한) 모델을 대상으로 본 방법을 적용한 RLVR 실험에서, 기준 성능(pass@1 AIME25 정확도)을 유지하면서도 평균적으로 출력 길이가 거의 두 배 짧은 해결책을 생성하는 데 성공했다. 코드는 https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}에서 확인할 수 있으며, 데이터셋과 모델은 https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}에서 제공된다.