11일 전
빅 버드: 더 긴 시퀀스를 위한 트랜스포머
Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed

초록
기존의 BERT와 같은 Transformer 기반 모델은 자연어 처리(NLP) 분야에서 가장 성공적인 딥러닝 모델 중 하나로 꼽히지만, 그 핵심적인 한계 중 하나는 전체 주의 메커니즘(attention mechanism)으로 인해 시퀀스 길이에 대해 이차적인(주로 메모리 측면에서) 의존성을 갖는다는 점이다. 이를 보완하기 위해 우리는 이차적 의존성을 선형으로 줄이는 희소 주의(sparse attention) 메커니즘을 제안한다. 이 모델을 BigBird라 명명하며, BigBird가 시퀀스 함수의 보편 근사자(universal approximator)이자 튜링 완전(Turing complete)임을 입증함으로써, 이전의 전체 주의 모델이 가지는 이러한 중요한 성질을 유지함을 보였다. 본 연구의 이론적 분석을 통해, 전체 시퀀스에 주의를 기울일 수 있는 $O(1)$ 크기의 글로벌 토큰(예: CLS)이 희소 주의 메커니즘에 포함될 경우의 이점들 또한 밝혀졌다. 제안된 희소 주의 메커니즘은 기존과 유사한 하드웨어 환경에서도 이전에 가능했던 길이의 8배까지의 시퀀스를 처리할 수 있다. 이처럼 더 긴 컨텍스트를 처리할 수 있는 능력은, 질문 응답 및 요약과 같은 다양한 NLP 작업에서 성능을 극적으로 향상시켰다. 또한, 본 연구는 유전체 데이터 처리에 대한 새로운 응용도 제안한다.