HyperAI초신경
4일 전

MUR: 대규모 언어 모델을 위한 모멘텀 불확실성 유도 추론

Hang Yan; Fangzhi Xu; Rongman Xu; Yifei Li; Jian Zhang; Haoran Luo; Xiaobao Wu; Luu Anh Tuan; Haiteng Zhao; Qika Lin; Jun Liu
MUR: 대규모 언어 모델을 위한 모멘텀 불확실성 유도 추론
초록

대규모 언어 모델(Large Language Models, LLMs)은 추론이 필요한 작업에서 높은 성능을 달성했지만, 추론 효율을 최적화하는 것은 여전히 열린 과제이다. 테스트 시간 스케일링(Test-Time Scaling, TTS)은 추론의 품질을 향상시키지만, 종종 과도한 사고를 유발하여 중복적인 계산에 토큰을 낭비하게 된다. 본 연구는 추가적인 훈련 없이 LLM의 테스트 시간 스케일링을 효율적이고 적응적으로 안내하는 방법을 탐구한다. 물리학에서의 운동량(momentum) 개념을 영감으로 삼아, 우리는 운동량 불확실성 기반 추론(Momentum Uncertainty-guided Reasoning, MUR)을 제안한다. 이 방법은 시간에 따른 단계별 불확실성을 추적하고 집계함으로써, 중요한 추론 단계에 동적으로 사고 예산을 할당한다. 유연한 추론 시간 제어를 지원하기 위해, 단일 하이퍼파라미터를 통해 추론 예산을 조정하는 간단한 메커니즘인 gamma-control을 도입한다. MUR의 안정성과 편향 측면에서의 우수성을 뒷받침하기 위해 철저한 이론적 증명을 제공한다. MUR은 최근 Qwen3 모델(1.7B, 4B, 8B)의 다양한 크기로, 네 가지 도전적인 벤치마크(MATH-500, AIME24, AIME25, GPQA-diamond)에서 다른 TTS 방법들과 비교하여 종합적으로 평가되었다. 결과는 MUR이 평균적으로 계산량을 50% 이상 줄이면서 정확도를 0.62~3.37% 개선함을 보여준다.