
초록
대규모 언어 모델(Large Language Models, LLMs)은 자기 일관성과 다수결 투표와 같은 테스트 시 스케일링 기법을 통해 추론 과제에서 큰 잠재력을 보여왔다. 그러나 이러한 접근 방식은 정확도 향상에 한계를 보이며, 높은 계산 부담을 수반하는 경우가 많다. 이러한 문제를 해결하기 위해, 본 연구에서는 테스트 시점에서 추론 효율성과 성능을 동시에 향상시키는 간단하면서도 강력한 방법인 ‘신뢰도를 고려한 깊은 사고(Deep Think with Confidence, DeepConf)’를 제안한다. DeepConf는 생성 과정 중 또는 이후에 모델 내부의 신뢰도 신호를 활용하여 저품질의 추론 경로를 동적으로 필터링한다. 이 방법은 추가적인 모델 학습이나 하이퍼파라미터 튜닝이 필요 없으며, 기존의 서비스 프레임워크에 원활하게 통합될 수 있다. 다양한 추론 과제와 최신 오픈소스 모델(예: Qwen 3 및 GPT-OSS 시리즈)을 대상으로 DeepConf를 평가한 결과, AIME 2025와 같은 도전적인 벤치마크에서 DeepConf@512가 최대 99.9%의 정확도를 달성하며, 전체 병렬 사고(parallel thinking) 대비 생성 토큰 수를 최대 84.7%까지 감소시키는 성과를 보였다.