18일 전

XCiT: 크로스공분산 이미지 트랜스포머

Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Hervé Jegou
XCiT: 크로스공분산 이미지 트랜스포머
초록

자연어 처리 분야에서의 성공을 거둔 이후, 트랜스포머는 최근 컴퓨터 비전 분야에서도 큰 가능성을 보이고 있다. 트랜스포머의 핵심이 되는 자체 주의(self-attention) 연산은 모든 토큰(즉, 단어 또는 이미지 패치) 간의 전역 상호작용을 가능하게 하며, 기존의 컨볼루션(Convolution)이 제한하는 국소적 상호작용을 넘어서 이미지 데이터를 유연하게 모델링할 수 있다. 그러나 이러한 유연성은 시간과 메모리 측면에서 토큰 수에 대해 이차적(Quadratic) 복잡도를 수반하며, 긴 시퀀스나 고해상도 이미지에의 적용을 방해한다. 본 연구에서는 토큰 대신 특징 채널을 기준으로 작동하는 '전치(transposed)' 형태의 자체 주의를 제안한다. 이 방식은 키(Key)와 쿼리(Query) 간의 교차공분산 행렬(Cross-covariance matrix)을 기반으로 상호작용을 수행한다. 결과적으로 얻어진 교차공분산 주의(XCA)는 토큰 수에 대해 선형 복잡도를 가지며, 고해상도 이미지의 효율적인 처리를 가능하게 한다. 본 연구에서 제안하는 교차공분산 이미지 트랜스포머(XCiT)는 XCA를 기반으로 구축되었다. XCiT는 기존 트랜스포머의 정확성과 컨볼루션 아키텍처의 확장성을 결합한 구조를 지닌다. 여러 비전 벤치마크에서 XCiT의 효과성과 일반성을 검증하기 위해, ImageNet-1k에서의 이미지 분류 및 자기지도 학습 특징 추출, COCO에서의 객체 탐지 및 인스턴스 세그멘테이션, ADE20k에서의 세그멘테이션 분석 등 다양한 작업에서 뛰어난 성능을 기록하였다.

XCiT: 크로스공분산 이미지 트랜스포머 | 최신 연구 논문 | HyperAI초신경