11일 전
CoLT5: 조건부 계산을 통한 더 빠른 장거리 Transformer
Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai

초록
장문 입력은 많은 자연어 처리 작업에서 유리하지만, Transformer 모델을 사용해 장문 문서를 처리하는 것은 비용이 매우 큽니다. 이는 단순히 주의 메커니즘의 이차 복잡도 때문만이 아니라, 각 토큰에 대해 피드포워드 계층과 프로젝션 계층을 모두 적용해야 하기 때문입니다. 그러나 더 긴 문서에서는 모든 토큰이 동일한 중요도를 가지는 것은 아닙니다. 우리는 이러한 통찰을 바탕으로 조건부 계산(conditional computation)을 도입한 CoLT5라는 장문 입력을 처리할 수 있는 Transformer 모델을 제안합니다. CoLT5는 피드포워드 계층과 주의 계층 모두에서 중요한 토큰에 더 많은 자원을 할당함으로써 효율적인 처리를 가능하게 합니다. 실험 결과, CoLT5는 LongT5보다 훨씬 빠른 학습과 추론 속도를 유지하면서 더 뛰어난 성능을 달성하였으며, 장문 입력 기준 벤치마크인 SCROLLS에서 최고 성능(SOTA)을 기록했습니다. 또한 CoLT5는 매우 긴 입력(최대 64k 길이까지)을 효과적이고 실용적으로 활용할 수 있어, 기존 모델에 비해 뚜렷한 성능 향상을 보였습니다.