한 달 전

도트 곱 어텐션을 사용하지 않는 Transformer

{Joshua M. Susskind, Ruixiang Zhang, Hanlin Goh, Chen Huang, Nitish Srivastava, Walter Talbott, Shuangfei Zhai}
도트 곱 어텐션을 사용하지 않는 Transformer
초록

우리는 자기주의에서 쿼리-키 내적 곱을 제거한 효율적인 트랜스포머 변형인 '도트 곱 주의력 자유 트랜스포머(Dot Product Attention Free Transformer, DAFT)'를 제안한다. 핵심 아이디어는 쿼리, 키, 값의 각 차원에 대해 분해 가능한 주의 맵을 구성하는 것이다. 이러한 구성성은 주의 텐서를 명시적으로 계산하거나 저장할 필요 없이 구현할 수 있도록 한다. DAFT 레이어는 컨텍스트 크기와 특징 차원에 대해 각각 선형적인 메모리 복잡도를 가지며, 이로 인해 큰 입력 크기와 모델 크기와도 호환 가능하다. 또한, 국소성과 공간적 가중치 공유를 활용하면서도 전역 연결성을 유지하는 DAFT-conv라는 모델 변형을 제안한다. ImageNet-1K 분류 및 CIFAR10, Enwik8 두 가지 순차 모델링 작업에 대한 실험을 수행한 결과, DAFT는 모든 벤치마크에서 경쟁력 있는 성능을 보이며 동시에 뛰어난 효율성을 제공함을 확인하였다.

도트 곱 어텐션을 사용하지 않는 Transformer | 연구 논문 | HyperAI초신경