Command Palette

Search for a command to run...

20일 전

짧지만 더 나쁘지 않다: 수학 RLVR에서 쉬운 샘플을 길이 정규화 요소로 활용한 절약형 추론

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

짧지만 더 나쁘지 않다: 수학 RLVR에서 쉬운 샘플을 길이 정규화 요소로 활용한 절약형 추론

초록

단계별 추론을 위해 훈련된 대규모 언어 모델(LLM)은 종종 과도하게 긴 출력을 생성하여 추론 비용이 증가하는 문제가 발생한다. 기존의 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(RLVR) 파이프라인은 훈련 효율성을 높이기 위해 '쉬운' 문제들을 제거하는 방식을 채택한다. 이로 인해 모델은 주로 더 어려운 문제, 즉 긴 추론 체인을 필요로 하는 문제들에 집중하여 훈련되며, 결과적으로 출력 길이 분포가 상향으로 편향된다. 이는 모델이 '더 오래 생각하는 것'을 '더 잘 생각하는 것'과 동일시하게 만든다. 본 연구에서는 중간 정도로 쉬운 문제들을 유지하고 약간 더 높은 가중치를 부여하는 방식이 간접적인 길이 정규화 효과를 발휘함을 보여준다. 짧은 추론 체인으로 해결 가능한 문제들에 지속적으로 노출됨으로써 모델의 출력 분포가 제한되며, 과도한 길이 증가를 방지할 수 있다. 그 결과, 명시적인 길이 페널티 없이도 '자발적인 간결성'이 자연스럽게 나타나는 현상이 발생한다. 즉, 모델은 출력 길이를 늘리지 않으면서도 어려운 문제를 효과적으로 해결할 수 있게 된다. Qwen3-4B-Thinking-2507(16k 토큰 제한) 모델을 대상으로 본 방법을 적용한 RLVR 실험에서, 기준 성능(pass@1 AIME25 정확도)을 유지하면서도 평균적으로 출력 길이가 거의 두 배 짧은 해결책을 생성하는 데 성공했다. 코드는 https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}에서 확인할 수 있으며, 데이터셋과 모델은 https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}에서 제공된다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
짧지만 더 나쁘지 않다: 수학 RLVR에서 쉬운 샘플을 길이 정규화 요소로 활용한 절약형 추론 | 연구 논문 | HyperAI초신경