Gut을 중심으로: 강화된 내재적 신뢰도를 활용한 효율적인 테스트 시간 스케일링
Ghasemabadi, Amirhosein ; Mills, Keith G. ; Li, Baochun ; Niu, Di
발행일: 5/29/2025

초록
테스트 시간 스케일링(TTS) 방법은 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 종종 상당한 계산 비용을 초래합니다. 이 비용은 주로 외부 프로세스 보상 모델(PRM)이나 Best-of-N(BoN)과 같은 샘플링 방법에 대한 과도한 의존 때문입니다. 본 논문에서는 PRM 수준의 성능을 비싼 외부 검증 모델 없이 달성하는 효율적인 자기 안내형 TTS 프레임워크인 '직감에 의한 안내(Guided by Gut, GG)'를 소개합니다. 우리의 방법은 내재적 LLM 신호, 즉 토큰 단위 신뢰도와 단계별 신선도만으로 안내되는 경량 트리 탐색을 사용합니다. 중요한 혁신 중 하나는 대상 강화 학습 미세 조정 단계를 통해 내부 신뢰도 추정의 신뢰성을 개선하는 것입니다. 어려운 수학적 추론 벤치마크에서의 실증 평가 결과, GG는 작은 규모의 모델(예: 1.5B 파라미터)이 크게 확장된 모델(예: 32B-70B 파라미터)과 맞먹거나 오히려 더 높은 정확도를 달성하면서 GPU 메모리 사용량을 최대 10배까지 줄이는 것을 보여주었습니다. PRM 기반 방법과 비교하여 GG는 8배 빠른 추론 속도와 4-5배 낮은 메모리 사용량으로 유사한 정확도를 달성합니다. 또한 GG는 BoN 전략보다 약 50% 적은 KV 캐시 메모리를 사용하여 TTS 기술의 더 효율적이고 실용적인 배포를 가능하게 합니다.