한 달 전
Transformer-XL: 고정 길이 컨텍스트를 넘어서 주의력을 활용한 언어 모델
Zihang Dai; Zhilin Yang; Yiming Yang; Jaime Carbonell; Quoc V. Le; Ruslan Salakhutdinov

초록
트랜스포머는 장기 의존성을 학습할 잠재력이 있지만, 언어 모델링 설정에서 고정된 길이의 문맥에 제한됩니다. 우리는 고정된 길이를 벗어난 의존성을 학습할 수 있으며 시간적 일관성을 해치지 않는 새로운 신경망 구조인 트랜스포머-XL을 제안합니다. 이 모델은 세그먼트 레벨 재귀 메커니즘과 새로운 위치 인코딩 방식으로 구성되어 있습니다. 우리의 방법은 단순히 더 장기적인 의존성을 포착하는 것뿐만 아니라 문맥 분산 문제도 해결합니다. 그 결과, 트랜스포머-XL은 RNN보다 80%, 일반 트랜스포머보다 450% 더 긴 의존성을 학습하며, 짧고 긴 시퀀스 모두에서 성능이 향상되고, 평가 시 일반 트랜스포머보다 최대 1,800배 이상 빠릅니다. 특히, enwiki8에서는 bpc/퍼플렉서티를 0.99로, text8에서는 1.08로, WikiText-103에서는 18.3으로, One Billion Word에서는 21.8로, Penn Treebank(파인튜닝 없음)에서는 54.5로 개선하여 기존 최고 기록을 경신했습니다. WikiText-103만으로 훈련되었을 때에도 트랜스포머-XL은 수천 개의 토큰으로 이루어진 상당히 일관성 있고 새로운 텍스트 기사를 생성할 수 있었습니다. 우리의 코드, 사전 훈련된 모델 및 하이퍼파라미터는 Tensorflow와 PyTorch에서 모두 제공됩니다.