17일 전

BiFormer: 이중 레벨 라우팅 어텐션을 갖춘 비전 트랜스포머

Lei Zhu, Xinjiang Wang, Zhanghan Ke, Wayne Zhang, Rynson Lau
BiFormer: 이중 레벨 라우팅 어텐션을 갖춘 비전 트랜스포머
초록

시각 변환기(Vision Transformers)의 핵심 구성 요소인 어텐션은 장거리 종속성을 효과적으로 포착할 수 있는 강력한 도구이다. 그러나 이러한 강력함은 비용을 수반한다. 즉, 모든 공간 위치 간의 쌍별 토큰 상호작용을 계산해야 하기 때문에 계산 부담과 메모리 사용량이 매우 크다. 이를 완화하기 위해, 일련의 연구들이 주어진 구조적 특성과 콘텐츠에 무관한 희소성(sparse)을 도입함으로써 문제를 해결하려고 시도해왔다. 예를 들어, 어텐션 연산을 국소 윈도우, 축 방향 스트라이프 또는 확장된 윈도우 내에 제한하는 방식이 있다. 반면, 본 연구에서는 콘텐츠 인식 능력을 갖춘 더 유연한 계산 분배를 가능하게 하는 새로운 동적 희소 어텐션 기법을 제안한다. 구체적으로, 쿼리에 대해 먼저 거시적 영역 단위에서 관련 없는 키-밸류 쌍을 필터링한 후, 남은 후보 영역의 합집합(즉, 라우팅된 영역) 내에서 세밀한 토큰 간 어텐션을 적용한다. 제안하는 이중 레벨 라우팅 어텐션은 간단하면서도 효과적인 구현을 제공하며, 계산 및 메모리 사용을 절약하는 동시에 GPU 친화적인 밀집 행렬 곱셈만을 사용한다. 이러한 이중 레벨 라우팅 어텐션을 기반으로 새로운 일반적인 시각 변환기인 BiFormer이 제안된다. BiFormer은 다른 무관한 토큰들로부터의 방해 없이, 쿼리에 따라 적절한 토큰의 소수 집합에만 집중함으로써 우수한 성능과 높은 계산 효율성을 동시에 달성하며, 특히 밀도 높은 예측 작업에서 두각을 나타낸다. 이미지 분류, 객체 탐지, 세그멘테이션 등 다양한 컴퓨터 비전 작업에서의 실험 결과는 본 연구의 설계가 효과적임을 입증한다. 코드는 다음 URL에서 제공된다: \url{https://github.com/rayleizhu/BiFormer}.

BiFormer: 이중 레벨 라우팅 어텐션을 갖춘 비전 트랜스포머 | 최신 연구 논문 | HyperAI초신경