
초록
우리는 Transformer 아키텍처의 설계 선택을 재검토하고, 긴 시퀀스 처리 시 나타나는 단점을 해결하기 위한 방법을 제안한다. 먼저, 단일 헤드 어텐션을 약간 약화시켜도 품질 손실이 최소화되는 간단한 레이어인 게이트형 어텐션 유닛(Gated Attention Unit)을 제안한다. 이후 이 새로운 레이어와 보완적으로 작동하는 선형 근사 방법을 제안하며, 이는 가속기 친화적이며 품질 면에서 매우 경쟁력이 있다. 이러한 기법을 통합한 최종 모델인 FLASH는 짧은(512) 및 긴(8K) 컨텍스트 길이 모두에서 개선된 Transformer와 동등한 퍼플렉서티(perplexity)를 달성하였으며, 순차적 언어 모델링에서는 Wiki-40B에서 최대 4.9배, PG-19에서는 최대 12.1배의 학습 속도 향상을 기록했고, 마스크 언어 모델링에서는 C4 데이터셋에서 4.8배의 속도 향상을 달성하였다.