한 달 전
문자 수준 언어 모델링에 더 깊은 자기 주의를 적용한 연구
Rami Al-Rfou; Dokook Choe; Noah Constant; Mandy Guo; Llion Jones

초록
LSTM 및 다른 RNN 변형 모델들은 문자 단위 언어 모델링에서 뛰어난 성능을 보여주었습니다. 이러한 모델들은 일반적으로 시간을 통해 절단된 역전파를 사용하여 학습되며, 그들의 성공이 장기적인 문맥을 기억하는 능력에서 비롯된다고 가정하는 것이 일반적입니다. 본 논문에서는 고정된 문맥을 사용한 깊은 (64층) 트랜스포머 모델이 RNN 변형 모델들보다 크게 우수한 성능을 보임을 입증합니다. 이는 두 가지 유명한 벤치마크에서 최고 수준의 성능을 달성하였음을 의미하며, text8에서는 1.13 비트/문자, enwik8에서는 1.06 비트/문자를 기록하였습니다. 이 깊이에서 좋은 결과를 얻기 위해서는 중간 네트워크 층과 중간 시퀀스 위치에서 보조 손실(auxiliary losses)을 추가하는 것이 중요함을 보여줍니다.