9일 전

긴 거리 시퀀스 모델링을 위한 압축형 트랜스포머

Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
긴 거리 시퀀스 모델링을 위한 압축형 트랜스포머
초록

우리는 장거리 시계열 학습을 위한 과거 기억을 압축하는 주의 기반 시계열 모델인 Compressive Transformer를 제안한다. 우리는 Compressive Transformer가 WikiText-103 및 Enwik8 벤치마크에서 최신 기준 성능을 달성함을 발견하였으며, 각각 17.1 ppl과 0.97 bpc의 성과를 기록하였다. 또한 이 모델이 고주파 음성 데이터를 효과적으로 모델링할 수 있으며, 객체 매칭 작업을 통해 강화학습(RL)의 메모리 메커니즘으로 활용될 수 있음을 입증하였다. 장거리 시계열 학습 분야의 발전을 위해, 책에서 유도된 새로운 오픈보이셔너리 언어 모델링 벤치마크인 PG-19를 제안한다.