
초록
입력 길이를 늘리는 것은 트랜스포머 기반 언어 모델링에서 성능 향상의 주요 동력이 되어왔다. 우리는 짧은 입력이 해를 끼치지 않는 조건을 규명하고, 입력 길이를 줄이는 두 가지 새로운 방법을 통해 혼잡도(perplexity)와 효율성을 동시에 개선하였다. 첫째, 모델을 처음에 짧은 서브시퀀스에서 훈련한 후 점차 길이를 늘려가는 전략이 총 훈련 시간을 단축시킬 뿐만 아니라, 놀랍게도 혼잡도를 크게 향상시킨다는 점을 보였다. 둘째, 트랜스포머가 한 번에 처리할 수 있는 최대 길이를 초과하는 시퀀스를 생성할 때 이전에 처리된 토큰에 조건을 두는 재귀적(recurrent) 방법의 효율성을 개선하는 방안을 제시한다. 기존 방법은 계산 비용이 큰 상대적 위치 임베딩(relative position embeddings)을 필요로 하지만, 우리는 단어 임베딩이 아닌 쿼리(query)와 키(key)에 절대적 위치 임베딩(absolute position embeddings)을 추가하는 간단한 대안을 제안하며, 이는 효율적으로 더 우수한 성능을 달성한다. 또한 이러한 재귀 모델도 짧은 입력 길이로부터 이점을 얻음을 확인하였다. 이러한 기법들을 결합하면 파라미터 추가 없이 훈련 속도를 1.65배 빠르게 하고 메모리 사용량을 줄이며, WikiText-103에서 혼잡도를 크게 향상시킬 수 있다.