초록

단계별 추론을 위해 훈련된 대규모 언어 모델(LLM)은 종종 과도하게 긴 출력을 생성하여 추론 비용이 증가하는 문제가 발생한다. 기존의 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(RLVR) 파이프라인은 훈련 효율성을 높이기 위해 '쉬운' 문제들을 제거하는 방식을 채택한다. 이로 인해 모델은 주로 더 어려운 문제, 즉 긴 추론 체인을 필요로 하는 문제들에 집중하여 훈련되며, 결과적으로 출력 길이 분포가 상향으로 편향된다. 이는 모델이 '더 오래 생각하는 것'을 '더 잘 생각하는 것'과 동일시하게 만든다. 본 연구에서는 중간 정도로 쉬운 문제들을 유지하고 약간 더 높은 가중치를 부여하는 방식이 간접적인 길이 정규화 효과를 발휘함을 보여준다. 짧은 추론 체인으로 해결 가능한 문제들에 지속적으로 노출됨으로써 모델의 출력 분포가 제한되며, 과도한 길이 증가를 방지할 수 있다. 그 결과, 명시적인 길이 페널티 없이도 '자발적인 간결성'이 자연스럽게 나타나는 현상이 발생한다. 즉, 모델은 출력 길이를 늘리지 않으면서도 어려운 문제를 효과적으로 해결할 수 있게 된다. Qwen3-4B-Thinking-2507(16k 토큰 제한) 모델을 대상으로 본 방법을 적용한 RLVR 실험에서, 기준 성능(pass@1 AIME25 정확도)을 유지하면서도 평균적으로 출력 길이가 거의 두 배 짧은 해결책을 생성하는 데 성공했다. 코드는 https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}에서 확인할 수 있으며, 데이터셋과 모델은 https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}에서 제공된다.

소스 PDF 코드 보기