한 달 전

트랜스포머에서의 적응적 주의력 범위

Sainbayar Sukhbaatar; Edouard Grave; Piotr Bojanowski; Armand Joulin

초록

우리는 최적의 주의 범위를 학습할 수 있는 새로운 자기 주의 메커니즘을 제안합니다. 이 메커니즘은 트랜스포머에서 사용되는 최대 컨텍스트 크기를 크게 확장하면서도 메모리 용량과 계산 시간을 제어할 수 있게 합니다. 우리는 문자 레벨 언어 모델링 작업에서 이 접근법의 효과를 보여주며, 최대 8,000자(8k characters)의 컨텍스트를 사용하여 text8 및 enwiki8 데이터셋에서 최신 성능을 달성했습니다.