9일 전

Shortformer: 짧은 입력을 활용한 더 나은 언어 모델링

Ofir Press, Noah A. Smith, Mike Lewis

초록

입력 길이를 늘리는 것은 트랜스포머 기반 언어 모델링에서 성능 향상의 주요 동력이 되어왔다. 우리는 짧은 입력이 해를 끼치지 않는 조건을 규명하고, 입력 길이를 줄이는 두 가지 새로운 방법을 통해 혼잡도(perplexity)와 효율성을 동시에 개선하였다. 첫째, 모델을 처음에 짧은 서브시퀀스에서 훈련한 후 점차 길이를 늘려가는 전략이 총 훈련 시간을 단축시킬 뿐만 아니라, 놀랍게도 혼잡도를 크게 향상시킨다는 점을 보였다. 둘째, 트랜스포머가 한 번에 처리할 수 있는 최대 길이를 초과하는 시퀀스를 생성할 때 이전에 처리된 토큰에 조건을 두는 재귀적(recurrent) 방법의 효율성을 개선하는 방안을 제시한다. 기존 방법은 계산 비용이 큰 상대적 위치 임베딩(relative position embeddings)을 필요로 하지만, 우리는 단어 임베딩이 아닌 쿼리(query)와 키(key)에 절대적 위치 임베딩(absolute position embeddings)을 추가하는 간단한 대안을 제안하며, 이는 효율적으로 더 우수한 성능을 달성한다. 또한 이러한 재귀 모델도 짧은 입력 길이로부터 이점을 얻음을 확인하였다. 이러한 기법들을 결합하면 파라미터 추가 없이 훈련 속도를 1.65배 빠르게 하고 메모리 사용량을 줄이며, WikiText-103에서 혼잡도를 크게 향상시킬 수 있다.