8일 전
맥락 한계를 넘어서기: 장기적 추론을 위한 무의식적 연결고리
Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass

초록
대규모 언어 모델(Large Language Models, LLMs)이 추론 정확도와 효율성에 제한을 주는 맥락 제약을 극복하기 위해, 우리는 재귀적이고 분해 가능한 문제 해결을 위한 학습이 완료된 대규모 언어 모델의 집합인 Thread Inference Model(TIM)을 제안한다. 또한 TIMRUN이라는 추론 런타임을 통해, 맥락 제약을 넘어서는 장기적이고 구조적인 추론을 가능하게 한다. TIM은 TIMRUN 기반으로 호스팅되어, 단일 언어 모델 추론 내에서 거의 제한 없는 작업 메모리와 다단계 도구 호출을 지원하며, 출력 제약, 위치 임베딩 제약, 그리고 GPU 메모리 병목 현상을 극복한다. 성능은 선형 시퀀스 대신 길이와 깊이를 기준으로 측정된 자연어 추론 트리로 모델링함으로써 달성된다. 추론 트리는 Schröder 등, 2025년에 제안한 개념에 기반한 작업, 사고, 재귀적 하위 작업, 그리고 결론으로 구성된다. 생성 과정에서, 우리는 최종적인 맥락 토큰의 키-값 상태만을 유지하는 규칙 기반 하위 작업 절단 메커니즘을 통해 작업 메모리를 유지하며, 이로 인해 추론 전반에 걸쳐 위치 임베딩과 GPU 메모리 페이지를 재사용할 수 있다. 실험 결과에 따르면, 우리의 시스템은 GPU 메모리 내에서 최대 90%의 KV 캐시를 조작하는 상황에서도 높은 추론 처리량을 유지할 수 있으며, 수학적 작업에 대한 정확한 추론을 수행하고, 장기적 추론과 다단계 도구 사용이 필요한 정보 검색 문제를 처리할 수 있다.