13일 전

예측 가능한 부분의 절단: 초기 토큰 놀라움을 통한 효율적인 코드 추론

Wenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

초록

최근 대규모 추론 모델(Large Reasoning Models, LRMs)은 사고의 흐름(Chain-of-Thought, CoT)의 길이를 확장함으로써 코드 추론 능력에서 뛰어난 성과를 보여주고 있다. 그러나 지나치게 긴 추론 흐름은 학습 비용, 추론 지연(latency), 배포 가능성 측면에서 상당한 도전 과제를 야기한다. 다양한 CoT 압축 기법이 이 문제를 해결하기 위해 등장했지만, 각각 고유한 성능 간 균형 문제를 안고 있다. 토큰 수준의 방법은 종종 구문적 및 논리적 일관성을 해치는 반면, 퍼플렉서티(perplexity) 기반의 단계 수준 방법은 논리적으로 핵심적인 추론 단계를 신뢰할 수 있게 포착하지 못한다. 본 논문에서는 CoT 압축을 위한 새로운 계층적-세분화적 프레임워크인 ASAP(Anchor-guided, Surprisal-based Pruning)을 제안한다. ASAP는 먼저 핵심 추론 구조를 유지하기 위해 앵커(Anchor) 기반의 압축을 수행함으로써 후속 처리에 대한 탐색 공간을 효율적으로 축소한다. 이후, 새로운 '첫 번째 토큰 놀라움(First-token Surprisal)' 지표를 활용하여 논리적으로 필수적인 추론 단계를 선택함으로써 논리 인식 기반의 압축을 실현한다. 마지막으로, ASAP는 추론 시점에 모델이 자율적으로 이러한 간결한 CoT를 생성하고 활용할 수 있도록 학습시킴으로써 코드 작업에서 효율적인 추론을 가능하게 한다. 실험 결과, ASAP는 여러 코드 생성 벤치마크에서 최신 기준의 정확도를 달성하면서도 학습 및 추론 비용을 크게 감소시켰다. 특히 도전적인 LiveCodeBench v4_v5 벤치마크에서, 강력한 기준 모델 대비 토큰 생성량을 23.5% 감소시키고 추론 지연을 43.5% 감소시키면서도 Pass@1 기준으로 36.19%의 경쟁력 있는 정확도를 달성하였다. 본 연구 결과는 강력하면서도 효율적인 대규모 추론 모델(LRMs) 구축을 위한 희망적인 방향성을 제시한다.