17일 전

RealFormer: Transformer는 잔차 주의를 좋아합니다

Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie

초록

현대 자연어 처리(NLP) 모델의 핵심 기반을 담당하는 것은 Transformer이다. 본 논문에서는 다양한 작업들—마스크 언어 모델링, GLUE, SQuAD, 신경망 기반 기계 번역, WikiHop, HotpotQA, Natural Questions, OpenKP 등—에서 기존의 표준 Transformer 및 그 변종(BERT 등)을 크게 능가하는 간단하고 일반적인 기법인 RealFormer을 제안한다. 또한 실증적으로 RealFormer이 학습을 안정화시키고 더 희소한 주의(attention) 구조를 가진 모델을 생성함을 관찰하였다. RealFormer의 소스 코드 및 사전 학습된 체크포인트는 다음 링크에서 확인할 수 있다: https://github.com/google-research/google-research/tree/master/realformer.