4일 전
MUR: 대규모 언어 모델을 위한 모멘텀 불확실성 유도 추론
Hang Yan; Fangzhi Xu; Rongman Xu; Yifei Li; Jian Zhang; Haoran Luo; Xiaobao Wu; Luu Anh Tuan; Haiteng Zhao; Qika Lin; Jun Liu

초록
대규모 언어 모델(Large Language Models, LLMs)은 추론이 필요한 작업에서 높은 성능을 달성했지만, 추론 효율을 최적화하는 것은 여전히 열린 과제이다. 테스트 시간 스케일링(Test-Time Scaling, TTS)은 추론의 품질을 향상시키지만, 종종 과도한 사고를 유발하여 중복적인 계산에 토큰을 낭비하게 된다. 본 연구는 추가적인 훈련 없이 LLM의 테스트 시간 스케일링을 효율적이고 적응적으로 안내하는 방법을 탐구한다. 물리학에서의 운동량(momentum) 개념을 영감으로 삼아, 우리는 운동량 불확실성 기반 추론(Momentum Uncertainty-guided Reasoning, MUR)을 제안한다. 이 방법은 시간에 따른 단계별 불확실성을 추적하고 집계함으로써, 중요한 추론 단계에 동적으로 사고 예산을 할당한다. 유연한 추론 시간 제어를 지원하기 위해, 단일 하이퍼파라미터를 통해 추론 예산을 조정하는 간단한 메커니즘인 gamma-control을 도입한다. MUR의 안정성과 편향 측면에서의 우수성을 뒷받침하기 위해 철저한 이론적 증명을 제공한다. MUR은 최근 Qwen3 모델(1.7B, 4B, 8B)의 다양한 크기로, 네 가지 도전적인 벤치마크(MATH-500, AIME24, AIME25, GPQA-diamond)에서 다른 TTS 방법들과 비교하여 종합적으로 평가되었다. 결과는 MUR이 평균적으로 계산량을 50% 이상 줄이면서 정확도를 0.62~3.37% 개선함을 보여준다.