9일 전

라우팅 트랜스포머를 활용한 효율적인 콘텐츠 기반 스파스 어텐션

Aurko Roy, Mohammad Saffar, Ashish Vaswani, David Grangier
라우팅 트랜스포머를 활용한 효율적인 콘텐츠 기반 스파스 어텐션
초록

최근 들어 자기 주목(self-attention)은 다양한 시계열 모델링 문제에 널리 채택되고 있다. 비록 효과적인 성능을 보이지만, 자기 주목은 시퀀스 길이에 대해 2차적으로 증가하는 계산 및 메모리 요구량을 겪는다는 점에서 한계가 있다. 이러한 복잡도를 줄이기 위한 성공적인 접근법은 주로 로컬 슬라이딩 윈도우에 주목하거나, 콘텐츠와 무관하게 고정된 소수의 위치에만 주목하는 방식에 초점이 맞춰져 왔다. 본 연구에서는 관심 있는 쿼리와 관련 없는 콘텐츠에 대한 계산 및 메모리 할당을 피하기 위해 동적으로 스파스한 주목 패턴을 학습하는 새로운 접근법을 제안한다. 본 연구는 두 가지 연구 방향을 기반으로 한다: 기존의 콘텐츠 기반 스파스 주목 연구의 모델링 유연성과, 로컬 및 시간적 스파스 주목 기반 접근법의 효율성 향상을 결합한다. 제안하는 모델인 라우팅 트랜스포머(Routing Transformer)는 온라인 k-means 기반의 스파스 라우팅 모듈을 자기 주목에 도입함으로써, 시퀀스 길이가 n이고 은닉 차원이 d일 때, 전체 주목 복잡도를 기존의 $O(n^2d)$에서 $O(n^{1.5}d)$로 감소시킨다. 실험 결과, 위키텍스트-103(Wikitext-103)에서 언어 모델링 성능을 비교할 때 본 모델이 18.3 퍼플렉서티를 기록하며, 동급의 스파스 주목 모델(15.8 퍼플렉서티)보다 우수함을 입증하였으며, 이미지넷-64(ImageNet-64)에서 이미지 생성 작업에서도 3.44 비트/차원 대비 3.43 비트/차원으로 성능을 개선하였다. 또한, 더 적은 자기 주목 레이어를 사용함에도 불구하고, 새로 공개된 PG-19 데이터셋에서 새로운 최고 성능을 달성하였으며, 길이 8192의 시퀀스를 기반으로 훈련된 22층 라우팅 트랜스포머 모델을 사용하여 테스트 퍼플렉서티 33.2를 달성하였다.