9일 전
긴 거리 시퀀스 모델링을 위한 압축형 트랜스포머
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap

초록
우리는 장거리 시계열 학습을 위한 과거 기억을 압축하는 주의 기반 시계열 모델인 Compressive Transformer를 제안한다. 우리는 Compressive Transformer가 WikiText-103 및 Enwik8 벤치마크에서 최신 기준 성능을 달성함을 발견하였으며, 각각 17.1 ppl과 0.97 bpc의 성과를 기록하였다. 또한 이 모델이 고주파 음성 데이터를 효과적으로 모델링할 수 있으며, 객체 매칭 작업을 통해 강화학습(RL)의 메모리 메커니즘으로 활용될 수 있음을 입증하였다. 장거리 시계열 학습 분야의 발전을 위해, 책에서 유도된 새로운 오픈보이셔너리 언어 모델링 벤치마크인 PG-19를 제안한다.