Command Palette
Search for a command to run...
Heng Lin Zhongwen Xu

초록
우리는 도구 통합 추론(TIR, Tool-Integrated Reasoning)이 대규모 언어 모델(LLM, Large Language Models)의 능력을 어떻게 향상시키는지에 대해 연구한다. 파이썬 코드 인터프리터와 같은 도구를 통합한 LLM은 큰 잠재력을 보이고 있으나, 이 패러다임이 효과적인 이유를 체계적으로 설명하는 이론은 여전히 부재해 왔다. 본 연구는 TIR이 LLM의 능력을 본질적으로 확장한다는 최초의 공식적 증명을 제시한다. 우리는 도구가 모델의 경험적 및 실행 가능한 지원 영역을 엄격하게 확장함으로써, 순수 텍스트 기반 모델의 능력 한계를 돌파할 수 있음을 입증한다. 이는 기존에는 불가능하거나 계산적으로 지나치게 복잡한 문제 해결 전략을 가능하게 한다. 학습의 안정성과 성능을 해치지 않으면서 모델의 행동을 유도하기 위해, 본 연구는 정책 행동을 직접 조절하는 우위 함수(advantage function)를 수정하는 새로운 알고리즘인 우위 형성 정책 최적화(ASPO, Advantage Shaping Policy Optimization)를 제안한다. 복잡한 수학적 벤치마크에서 파이썬 인터프리터를 외부 도구로 활용하여 종합적인 실험을 수행한 결과, TIR 모델이 순수 텍스트 모델 대비 pass@k 지표에서 뚜렷한 우위를 보였다. 특히 이 우위는 계산량이 많은 문제에 국한되지 않고, 상당한 추상적 통찰이 필요한 문제에도 확장됨을 확인하였다. 또한 모델이 도구를 활용해 사고하는 과정에서 나타나는 새로운 인지 패턴을 식별함으로써, 도구를 통한 사고 학습의 메커니즘을 설명하였다. 마지막으로, ASPO를 적용함으로써 초기 코드 호출이 증가하고, 훨씬 더 많은 상호작용 라운드가 가능해지는 개선된 도구 사용 행동을 관찰하였다. 종합적으로 본 연구는 TIR의 성공에 대한 최초의 체계적 설명을 제공하며, 도구가 작동한다는 사실을 넘어서 ‘왜’ 그리고 ‘어떻게’ 도구가 더 강력한 추론 능력을 가능하게 하는지를 탐구하는 연구 방향을 제시한다.