Command Palette
Search for a command to run...
모든 토큰이 중요하다: 대규모 언어 모델에서 16M 초장거리 컨텍스트의 일반화
모든 토큰이 중요하다: 대규모 언어 모델에서 16M 초장거리 컨텍스트의 일반화
Xiang Hu Zhanchao Zhou Ruiqi Liang Zehuan Li Wei Wu Jianguo Li
초록
본 연구는 '기억할 수 있는 기계'를 구축하는 도전 과제를 탐구하며, 장기 기억을 효율적인 초장거리 컨텍스트 모델링 문제로 재정의한다. 우리는 이러한 문제 해결을 위해 세 가지 핵심 특성이 필요하다고 주장한다: 희소성(sparsity), 임의 접근의 유연성(random-access flexibility), 그리고 길이 일반화(length generalization). 초장거리 컨텍스트 모델링을 해결하기 위해, 이 세 가지 특성을 모두 만족하는 새로운 어텐션 메커니즘인 계층적 희소 어텐션(Hierarchical Sparse Attention, HSA)을 활용한다. HSA를 트랜스포머에 통합하여, 80억 파라미터를 가진 MoE(다수의 모델) 구조를 가진 HSA-UltraLong 모델을 구축하였으며, 이는 8조 이상의 토큰으로 훈련되었고, 도메인 내 및 도메인 외의 다양한 컨텍스트 길이에서 엄격한 평가를 통해 초장거리 컨텍스트 처리 능력을 입증한다. 실험 결과, 본 모델은 도메인 내 컨텍스트 길이에서는 전체 어텐션 기반 베이스라인과 유사한 성능을 보였으며, 최대 1,600만 단어에 이르는 컨텍스트를 가진 대부분의 인-컨텍스트 검색 작업에서 90% 이상의 정확도를 달성하였다. 본 보고서는 실험적 통찰과 미해결 과제를 정리하며, 초장거리 컨텍스트 모델링 분야의 미래 연구에 기초를 마련한다.