16일 전
LongT5: 긴 시퀀스를 위한 효율적인 텍스트-투-텍스트 Transformer
Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, Yinfei Yang

초록
최근 연구에서는 Transformer 기반 신경망 모델의 성능을 향상시키기 위해 either (1) 입력 길이를 늘리는 것 또는 (2) 모델 크기를 키우는 것 중 하나가 효과적임을 보여주었다. 본 논문에서는 입력 길이와 모델 크기를 동시에 확장하는 효과를 탐색하기 위해 새로운 모델인 LongT5를 제안한다. 구체적으로, 긴 입력을 다루는 Transformer의 주의 메커니즘(ETC)에서 영감을 얻어 주의 기법을 통합하고, 요약 작업을 위한 사전 훈련 전략(PEGASUS)을 확장 가능한 T5 아키텍처에 도입하였다. 그 결과, ETC의 국소/전역 주의 메커니즘을 모방하지만 추가적인 보조 입력 없이도 작동하는 새로운 주의 메커니즘인 {\em Transient Global} (TGlobal)을 개발하였다. 본 연구에서는 여러 요약 작업에서 최신 기준(SOTA) 성능을 달성하였으며, 질문 응답(task)에서는 원본 T5 모델보다 우수한 성능을 보였다.