한 달 전

Mixture-of-Recursions: 동적 재귀 깊이를 학습하여 적응형 토큰 단위 계산 수행

Sangmin Bae, Yujin Kim, Reza Bayat, Sungnyun Kim, Jiyoun Ha, Tal Schuster, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Aaron Courville, Se-Young Yun
Mixture-of-Recursions: 동적 재귀 깊이를 학습하여 적응형 토큰 단위 계산 수행
초록

언어 모델의 확장은 인상적인 능력을 열어줍니다. 그러나 이에 따른 계산 및 메모리 요구사항은 훈련과 배포 모두를 비용이 많이 드는 작업으로 만듭니다. 기존의 효율성 노력은 일반적으로 매개변수 공유 또는 적응적 계산 중 하나에 초점을 맞추고 있어, 두 가지를 동시에 달성하는 방법에 대한 질문은 여전히 해결되지 않은 상태입니다. 우리는 Mixture-of-Recursions (MoR)라는 통합 프레임워크를 소개합니다. 이 프레임워크는 단일 재귀 트랜스포머 내에서 두 가지 효율성 축을 결합합니다.MoR는 재귀 단계 간 공유된 레이어 스택을 재사용하여 매개변수 효율성을 달성하며, 경량화된 라우터는 동적으로 개별 토큰에 다른 재귀 깊이를 할당함으로써 적응형 토큰 수준의 사고를 가능하게 합니다. 이를 통해 MoR는 주어진 재귀 깊이에서 아직 활성화된 토큰들 사이에서만 이차적 주의력 계산을 집중할 수 있으며, 선택적으로 해당 키-값 쌍만 캐싱하여 메모리 접근 효율성을 더욱 개선합니다.이러한 핵심 메커니즘 외에도, 우리는 KV 공유 변형을 제안합니다. 이 변형은 첫 번째 재귀에서 KV 쌍을 재사용하도록 설계되어,事前填充延迟和内存占用(prefill latency and memory footprint)를 줄이는 데 특별히 효과적입니다.135M부터 1.7B 매개변수까지 다양한 모델 크기에 걸쳐, MoR는 새로운 파레토 최적선(Pareto frontier)을 형성합니다: 같은 훈련 FLOPs와 더 작은 모델 크기에서 검증 혼동도(validation perplexity)를 크게 낮추고 소수 샷 정확도(few-shot accuracy)를 개선하며, 기존의 순수 및 재귀 베이스라인(vanilla and existing recursive baselines)보다 더 높은 처리량(throughput)을 제공합니다. 이러한 성능 향상은 MoR가 대형 모델의 비용 없이 대형 모델의 품질로 나아가는 효과적인 방법이라는 것을 입증합니다.注:在翻译中,“事前填充延迟和内存占用”被直接翻译为“预填充延迟和内存占用”,但为了保持韩语的流畅性和可读性,这里使用了“事前填充延迟和内存占用”的韩语对应表达“prefill latency and memory footprint”。