9일 전

ETC: Transformer에서 긴 구조화된 입력을 인코딩하는 방법

Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, Li Yang
ETC: Transformer에서 긴 구조화된 입력을 인코딩하는 방법
초록

Transformer 모델은 자연어 처리(NLP) 분야의 많은 작업에서 최첨단 성능을 달성하였다. 본 논문에서는 기존 Transformer 아키텍처의 두 가지 핵심 과제—입력 길이의 확장 및 구조화된 입력의 인코딩—을 해결하는 새로운 Transformer 아키텍처인 확장형 트랜스포머 구조(Extended Transformer Construction, ETC)를 제안한다. 더 긴 입력에 대한 어텐션을 확장하기 위해, 글로벌 토큰과 일반 입력 토큰 사이에 새로운 글로벌-로컬 어텐션 메커니즘을 도입하였다. 또한 글로벌-로컬 어텐션을 상대적 위치 인코딩과 대조적 예측 코드(CPC, Contrastive Predictive Coding) 사전 학습 목표와 결합함으로써 ETC가 구조화된 입력을 효과적으로 인코딩할 수 있음을 보였다. 이러한 방법을 통해 긴 입력과/또는 구조화된 입력이 요구되는 네 가지 자연어 데이터셋에서 최첨단 성능을 달성하였다.

ETC: Transformer에서 긴 구조화된 입력을 인코딩하는 방법 | 최신 연구 논문 | HyperAI초신경