11일 전
Performers를 통한 주의 메커니즘의 재고
Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller

초록
우리는 정규적인(소프트맥스) 완전랭크 어텐션을 보장된 정확도로 추정할 수 있지만, 희소성이나 낮은 랭크성과 같은 사전 지식에 의존하지 않고 선형(이차 대비) 공간 및 시간 복잡도만을 사용하는 Performers라는 새로운 트랜스포머 아키텍처를 제안한다. 소프트맥스 어텐션 커널을 근사하기 위해 Performers는 새로운 Fast Attention Via positive Orthogonal Random features(FAVOR+) 기법을 사용한다. 이 기법은 확장 가능한 커널 방법 분야에서 별도의 관심을 끌 수 있는 방법이며, 소프트맥스를 넘어서는 커널화 가능한 어텐션 메커니즘을 효율적으로 모델링하는 데에도 활용 가능하다. 이러한 표현 능력은 기존의 정규 트랜스포머가 다루기 어려운 대규모 작업에서 소프트맥스 커널과 다른 커널 간의 정확한 비교를 처음으로 가능하게 하며, 최적의 어텐션 커널 탐색에 기여한다. Performers는 정규 트랜스포머와 완전히 호환되는 선형 아키텍처로, 어텐션 행렬의 편향 없음 또는 거의 편향 없는 추정, 균일 수렴성, 낮은 추정 분산 등의 강력한 이론적 보장을 갖춘다. 우리는 픽셀 예측부터 텍스트 모델링, 단백질 서열 모델링에 이르기까지 다양한 작업들에서 Performers를 검증하였다. 그 결과, 다른 검토된 효율적인 희소 및 밀집 어텐션 방법들과 경쟁 가능한 성능을 보였으며, Performers가 활용하는 새로운 어텐션 학습 패러다임의 효과성을 입증하였다.