16일 전

cosFormer: 주의에서 소프트맥스 재고찰

Zhen Qin, Weixuan Sun, Hui Deng, Dongxu Li, Yunshen Wei, Baohong Lv, Junjie Yan, Lingpeng Kong, Yiran Zhong
cosFormer: 주의에서 소프트맥스 재고찰
초록

Transformer는 자연어 처리, 컴퓨터 비전, 음성 처리 분야에서 큰 성공을 거두었다. 그 핵심 구성 요소 중 하나인 소프트맥스 어텐션은 장거리 의존성을 효과적으로 포착할 수 있으나, 시퀀스 길이에 대해 이차적 공간 및 시간 복잡도를 가지기 때문에 확장성에 한계가 있다. 이를 해결하기 위해 커널 방법이 소프트맥스 연산자를 근사함으로써 복잡도를 낮추는 데 자주 사용된다. 그러나 근사 오차의 영향으로 인해 다양한 작업/코퍼스에서 성능이 일관되지 않으며, 원본 소프트맥스 어텐션과 비교했을 때 심각한 성능 저하를 겪는다. 본 논문에서는 캐주얼 어텐션과 크로스 어텐션 모두에서 원본 Transformer와 비교해 유사하거나 더 높은 정확도를 달성할 수 있는 선형 Transformer인 cosFormer을 제안한다. cosFormer은 소프트맥스 어텐션의 두 가지 핵심 특성에 기반한다: i) 어텐션 행렬의 비음성성, ii) 어텐션 행렬의 분포를 집중시키는 비선형 재가중 전략. 이를 선형 대체물로 활용하기 위해 cosFormer은 선형 연산자와 코사인 기반 거리 재가중 메커니즘을 통해 이러한 특성을 충족시킨다. 언어 모델링 및 텍스트 이해 작업에 대한 광범위한 실험을 통해 본 방법의 효과성을 입증하였다. 또한 긴 시퀀스에 대한 실험을 통해 Long-Range Arena 벤치마크에서 최신 기술 수준의 성능을 달성하였다. 소스 코드는 https://github.com/OpenNLPLab/cosFormer 에서 공개되어 있다.

cosFormer: 주의에서 소프트맥스 재고찰 | 최신 연구 논문 | HyperAI초신경