Command Palette
Search for a command to run...
ThreadWeaver: 언어 모델에서 효율적인 병렬 추론을 위한 적응형 스레딩
ThreadWeaver: 언어 모델에서 효율적인 병렬 추론을 위한 적응형 스레딩
Long Lian Sida Wang Felix Juefei-Xu Tsu-Jui Fu Xiuyu Li Adam Yala Trevor Darrell Alane Suhr Yuandong Tian Xi Victoria Lin
초록
추론 시 계산을 확장함으로써 대규모 언어 모델(Large Language Models, LLMs)은 강력한 추론 성능을 달성할 수 있게 되었으나, 본질적으로 순차적인 디코딩 구조는 복잡한 과제에서 특히 높은 지연(latency)을 초래한다. 최근의 적응형 병렬 추론 기법은 유용한 경우 문제 해결 과정을 병렬 추론 스레드로 분해함으로써 추론 효율성을 향상시키려는 시도를 하고 있다. 그러나 기존의 방법들은 현실적인 과제에서 보통 감독 학습 기반의 행동 클로닝(supervised behavior cloning)에 국한되거나, 널리 사용되는 순차적 긴 사고 흐름(long chain-of-thought, CoT) 기반 벤치마크에 비해 정확도가 크게 하락하는 문제가 있다. 게다가 많은 기법은 맞춤형 추론 엔진을 필요로 하여 배포를 복잡하게 만든다. 본 연구에서는, 유사한 크기의 대표적인 순차 추론 모델과 비견되는 정확도를 달성하면서도 추론 지연을 크게 줄이는 적응형 병렬 추론을 위한 프레임워크인 ThreadWeaver를 제안한다. ThreadWeaver의 성능은 세 가지 핵심 혁신에 기반한다. 첫째, 병렬 주석을 포함한 대규모 고품질 CoT 데이터를 생성하는 이단계 병렬 경로 생성기(2-stage parallel trajectory generator)를 도입하여 감독 미세조정(supervised fine-tuning)에 활용할 수 있도록 했다. 둘째, 트라이(trie) 기반의 훈련-추론 공동 설계를 통해, 위치 임베딩(position embeddings)이나 KV 캐시(KV caches)를 수정하지 않고도 어떤 일반적인 자동회귀 추론 엔진에서도 병렬 추론이 가능하게 했다. 셋째, 병렬화를 고려한 강화 학습 프레임워크를 도입하여 모델이 정확도와 효율적인 병렬화 사이의 균형을 학습하도록 했다. 여섯 가지 도전적인 수학 추론 벤치마크에서 Qwen3-8B 기반으로 훈련된 ThreadWeaver는 최첨단 순차 추론 모델과 비슷한 성능(평균 71.9%, AIME24에서 79.9%)을 달성하면서도 토큰 지연 측면에서 평균 1.53배의 속도 향상을 보였으며, 정확도와 효율성 사이의 새로운 파레토 경계(Pareto frontier)를 설정했다.