9일 전
ETC: Transformer에서 긴 구조화된 입력을 인코딩하는 방법
Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, Li Yang

초록
Transformer 모델은 자연어 처리(NLP) 분야의 많은 작업에서 최첨단 성능을 달성하였다. 본 논문에서는 기존 Transformer 아키텍처의 두 가지 핵심 과제—입력 길이의 확장 및 구조화된 입력의 인코딩—을 해결하는 새로운 Transformer 아키텍처인 확장형 트랜스포머 구조(Extended Transformer Construction, ETC)를 제안한다. 더 긴 입력에 대한 어텐션을 확장하기 위해, 글로벌 토큰과 일반 입력 토큰 사이에 새로운 글로벌-로컬 어텐션 메커니즘을 도입하였다. 또한 글로벌-로컬 어텐션을 상대적 위치 인코딩과 대조적 예측 코드(CPC, Contrastive Predictive Coding) 사전 학습 목표와 결합함으로써 ETC가 구조화된 입력을 효과적으로 인코딩할 수 있음을 보였다. 이러한 방법을 통해 긴 입력과/또는 구조화된 입력이 요구되는 네 가지 자연어 데이터셋에서 최첨단 성능을 달성하였다.