11일 전
Funnel-Transformer: 효율적인 언어 처리를 위한 시계열 중복성 제거
Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le

초록
언어 사전학습의 성공에 힘입어, 풍부한 레이블이 없는 데이터를 저비용으로 효과적으로 활용할 수 있는 우수한 확장성과 효율성을 갖춘 아키텍처 개발이 매우 시급하다. 효율성 향상을 위해 우리는, 단일 벡터 형태의 시퀀스 표현만을 요구하는 작업에서 전체 길이의 토큰 수준 표현을 유지하는 데 있어 과도하게 간과된 중복성을 검토하였다. 이러한 통찰을 바탕으로, 숨겨진 상태의 시퀀스를 점진적으로 압축하여 더 짧은 시퀀스로 줄이는 Funnel-Transformer를 제안한다. 이로 인해 계산 비용이 크게 감소하게 된다. 더 중요한 점은, 시퀀스 길이 감소로 절약된 FLOPs를 활용해 모델의 깊이 또는 폭을 늘림으로써 모델의 표현 능력을 추가로 향상시킬 수 있다는 것이다. 또한, 일반적인 사전학습 목표에서 요구하는 토큰 수준의 예측을 수행하기 위해 Funnel-Transformer는 압축된 숨겨진 상태 시퀀스로부터 디코더를 통해 각 토큰에 대한 깊은 표현을 복원할 수 있다. 실험적으로, 동등하거나 더 적은 FLOPs를 사용함에도 불구하고, Funnel-Transformer는 텍스트 분류, 언어 이해, 독해와 같은 다양한 시퀀스 수준 예측 작업에서 기존의 표준 Transformer를 능가한다. 코드 및 사전학습된 체크포인트는 https://github.com/laiguokun/Funnel-Transformer 에서 확인할 수 있다.