9일 전

컴바이저: 희소 계산 비용을 갖춘 전체 주의력 트랜스포머

Hongyu Ren, Hanjun Dai, Zihang Dai, Mengjiao Yang, Jure Leskovec, Dale Schuurmans, Bo Dai
컴바이저: 희소 계산 비용을 갖춘 전체 주의력 트랜스포머
초록

Transformers는 시퀀스 모델링에 매우 효과적인 표현력이 뛰어난 아키텍처의 한 종류이다. 그러나 Transformer의 핵심적인 제한 요소는 어텐션 레이어에서 시퀀스 길이에 대해 이차 시간 및 메모리 복잡도 $\mathcal{O}(L^2)$를 가지며, 이로 인해 매우 긴 시퀀스에 대한 적용이 제한된다. 기존의 대부분의 접근 방식은 어텐션 행렬에 희소성 또는 낮은 랭크 가정을 도입하여 비용을 줄이지만, 표현력을 희생한다. 본 연구에서는 각 어텐션 헤드에서 완전한 어텐션 기능을 제공하면서도 낮은 계산 및 메모리 복잡도를 유지하는 Combiner를 제안한다. 핵심 아이디어는 각 위치의 임베딩에 대한 자기 어텐션 메커니즘을 조건부 기대값으로 간주하고, 조건부 분포를 구조화된 인수분해 방식으로 근사하는 것이다. 각 위치는 직접 어텐션을 통해 다른 모든 위치에 주목할 수 있으며, 또는 해당 지역의 임베딩에 대한 조건부 기대값인 추상화(abstraction)를 간접적으로 어텐션함으로써 다른 위치에 주목할 수 있다. 우리는 기존의 희소 Transformer에서 사용되는 대부분의 희소 어텐션 패턴이 이러한 인수분해 설계를 유도할 수 있음을 보이며, 이로 인해 이차보다 낮은 비용($\mathcal{O}(L\log(L))$ 또는 $\mathcal{O}(L\sqrt{L})$)을 달성할 수 있음을 보여준다. Combiner는 기존 Transformer의 어텐션 레이어에 즉시 대체 가능한 구조이며, 일반적인 기계학습 프레임워크에서도 간편하게 구현할 수 있다. 자동회귀 및 양방향 시퀀스 작업에 대한 실험 평가를 통해 본 방법의 효과성을 입증하였으며, 여러 이미지 및 텍스트 모델링 작업에서 최신 기준(SOTA) 성능을 달성하였다.

컴바이저: 희소 계산 비용을 갖춘 전체 주의력 트랜스포머 | 최신 연구 논문 | HyperAI초신경