Command Palette
Search for a command to run...
확신을 가지고 깊이 생각하기
확신을 가지고 깊이 생각하기
Yichao Fu Xuewei Wang Yuandong Tian Jiawei Zhao
초록
대규모 언어 모델(Large Language Models, LLMs)은 자기 일관성과 다수결 투표와 같은 테스트 시 스케일링 기법을 통해 추론 과제에서 큰 잠재력을 보여왔다. 그러나 이러한 접근 방식은 정확도 향상에 한계를 보이며, 높은 계산 부담을 수반하는 경우가 많다. 이러한 문제를 해결하기 위해, 본 연구에서는 테스트 시점에서 추론 효율성과 성능을 동시에 향상시키는 간단하면서도 강력한 방법인 ‘신뢰도를 고려한 깊은 사고(Deep Think with Confidence, DeepConf)’를 제안한다. DeepConf는 생성 과정 중 또는 이후에 모델 내부의 신뢰도 신호를 활용하여 저품질의 추론 경로를 동적으로 필터링한다. 이 방법은 추가적인 모델 학습이나 하이퍼파라미터 튜닝이 필요 없으며, 기존의 서비스 프레임워크에 원활하게 통합될 수 있다. 다양한 추론 과제와 최신 오픈소스 모델(예: Qwen 3 및 GPT-OSS 시리즈)을 대상으로 DeepConf를 평가한 결과, AIME 2025와 같은 도전적인 벤치마크에서 DeepConf@512가 최대 99.9%의 정확도를 달성하며, 전체 병렬 사고(parallel thinking) 대비 생성 토큰 수를 최대 84.7%까지 감소시키는 성과를 보였다.