16일 전

어텐션은 행렬 분해보다 나은가?

Zhengyang Geng, Meng-Hao Guo, Hongxu Chen, Xia Li, Ke Wei, Zhouchen Lin
어텐션은 행렬 분해보다 나은가?
초록

현대 딥러닝의 핵심 요소인 어텐션 메커니즘, 특히 자기어텐션(self-attention)은 글로벌 상관관계 탐지에서 중요한 역할을 한다. 그러나 장거리 의존성을 모델링할 때 수작업으로 설계된 어텐션 메커니즘이 필수적인가? 우리의 흥미로운 발견은, 장거리 의존성 인코딩 성능과 계산 비용 측면에서 자기어텐션보다 20년 전에 개발된 행렬 분해(MD, Matrix Decomposition) 모델이 우수하다는 점이다. 본 연구에서는 글로벌 컨텍스트 문제를 낮은 랭크 복원 문제(low-rank recovery problem)로 모델링하고, 이를 해결하기 위한 최적화 알고리즘이 글로벌 정보 블록 설계에 기여할 수 있음을 보여준다. 이에 따라, 입력 표현을 하위 행렬로 분해하고 낮은 랭크 임베딩을 재구성하기 위해 MD의 최적화 알고리즘을 활용하는 일련의 ‘햄버거(Hamburgers)’ 모델을 제안한다. 다양한 MD를 활용한 햄버거 모델은 MD를 통해 역전파되는 그래디언트를 적절히 다룰 경우, 인기 있는 자기어텐션 기반 글로벌 컨텍스트 모듈과 경쟁력을 갖는다. 시각 작업, 특히 글로벌 컨텍스트를 효과적으로 학습하는 것이 핵심인 세그멘테이션 및 이미지 생성 작업에서 대규모 실험을 수행하여, 자기어텐션 및 그 변종 대비 유의미한 성능 향상을 입증하였다.

어텐션은 행렬 분해보다 나은가? | 최신 연구 논문 | HyperAI초신경