17일 전
계층적 Transformer는 더 효율적인 언어 모델이다
Piotr Nawrot, Szymon Tworkowski, Michał Tyrolski, Łukasz Kaiser, Yuhuai Wu, Christian Szegedy, Henryk Michalewski

초록
Transformer 모델은 자연어 처리(NLP) 및 시퀀스 모델링 작업에서 놀라운 성과를 내고 있다. 특히 Transformer는 긴 시퀀스를 처리할 수 있어, GPT-3가 생성하는 전체 단락이나 DALL-E가 생성하는 잘 구조화된 이미지와 같은 긴 일관성 있는 출력을 가능하게 한다. 이러한 대규모 언어 모델은 인상적이나, 동시에 매우 비효율적이고 비용이 많이 드는 특징이 있어, 그 응용 범위와 접근성에 한계가 있다. 우리는, 긴 시퀀스를 효율적으로 처리할 수 있는 Transformer의 핵심은 명시적인 계층 구조를 갖는다는 가정을 제기한다. 이 가정을 검증하기 위해, 먼저 Transformer 내에서 활성화 값을 다운샘플링하고 업샘플링하는 다양한 방법을 탐색하여 계층적 구조를 도입해 보았다. 최적의 업샘플링 및 다운샘플링 레이어를 활용해 ‘아워글라스(Hourglass)’라는 계층적 Transformer 기반 언어 모델을 설계하였다. 아워글라스는 동일한 계산량을 가진 기준 Transformer 모델에 비해 성능을 향상시킬 수 있으며, 동일한 결과를 더 효율적으로 달성할 수 있다. 특히 아워글라스는 ImageNet32 생성 작업에서 Transformer 모델 기준으로 새로운 최고 성능을 기록하였으며, 널리 연구된 enwik8 벤치마크에서 언어 모델링 효율성도 향상시켰다.