11일 전

빅 버드: 더 긴 시퀀스를 위한 트랜스포머

Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed
빅 버드: 더 긴 시퀀스를 위한 트랜스포머
초록

기존의 BERT와 같은 Transformer 기반 모델은 자연어 처리(NLP) 분야에서 가장 성공적인 딥러닝 모델 중 하나로 꼽히지만, 그 핵심적인 한계 중 하나는 전체 주의 메커니즘(attention mechanism)으로 인해 시퀀스 길이에 대해 이차적인(주로 메모리 측면에서) 의존성을 갖는다는 점이다. 이를 보완하기 위해 우리는 이차적 의존성을 선형으로 줄이는 희소 주의(sparse attention) 메커니즘을 제안한다. 이 모델을 BigBird라 명명하며, BigBird가 시퀀스 함수의 보편 근사자(universal approximator)이자 튜링 완전(Turing complete)임을 입증함으로써, 이전의 전체 주의 모델이 가지는 이러한 중요한 성질을 유지함을 보였다. 본 연구의 이론적 분석을 통해, 전체 시퀀스에 주의를 기울일 수 있는 $O(1)$ 크기의 글로벌 토큰(예: CLS)이 희소 주의 메커니즘에 포함될 경우의 이점들 또한 밝혀졌다. 제안된 희소 주의 메커니즘은 기존과 유사한 하드웨어 환경에서도 이전에 가능했던 길이의 8배까지의 시퀀스를 처리할 수 있다. 이처럼 더 긴 컨텍스트를 처리할 수 있는 능력은, 질문 응답 및 요약과 같은 다양한 NLP 작업에서 성능을 극적으로 향상시켰다. 또한, 본 연구는 유전체 데이터 처리에 대한 새로운 응용도 제안한다.

빅 버드: 더 긴 시퀀스를 위한 트랜스포머 | 최신 연구 논문 | HyperAI초신경