
초록
대규모 트랜스포머 모델은 여러 작업에서 최상의 성능을 지속적으로 달성하지만, 특히 긴 시퀀스에 대해 이러한 모델을 훈련하는 데 드는 비용이 매우 높을 수 있다. 본 연구에서는 트랜스포머의 효율성을 향상시키기 위한 두 가지 기법을 제안한다. 첫째, 내적 곱(dot-product) 어텐션을 국소성 감지 해싱(Locality-Sensitive Hashing, LSH)을 활용한 어텐션으로 대체함으로써, 어텐션의 시간 복잡도를 기존의 O($L^2$)에서 O($L\log L$)로 감소시켰다. 여기서 $L$은 시퀀스의 길이를 의미한다. 둘째, 전통적인 잔차 연결(residual connections) 대신 역행 가능(residual) 레이어를 사용함으로써, 훈련 과정에서 활성화값을 총 $N$번 저장하는 대신 단 한 번만 저장할 수 있게 되었으며, 여기서 $N$은 레이어의 수이다. 이러한 기법들을 통합한 최종 모델인 Reformer은 기존 트랜스포머 모델과 동등한 성능을 보이면서도, 긴 시퀀스 처리 시 메모리 사용 효율성이 훨씬 뛰어나고 처리 속도도 크게 향상된다.