17일 전
Twins: 비전 트랜스포머에서 공간 주의 메커니즘 설계 재고
Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, Chunhua Shen

초록
최근 들어 밀도 예측 작업을 위한 다양한 비전 트랜스포머 아키텍처가 제안되었으며, 이러한 아키텍처들이 성공하는 데 있어 공간 주의 메커니즘의 설계가 핵심임을 보여주었다. 본 연구에서는 공간 주의 메커니즘의 설계를 재검토하고, 정교하게 설계된 그러나 간단한 공간 주의 메커니즘이 최신 기술 대비 우수한 성능을 발휘함을 입증한다. 이를 바탕으로, 본 연구에서는 Twins-PCPVT와 Twins-SVT라는 두 가지 비전 트랜스포머 아키텍처를 제안한다. 제안된 아키텍처는 매우 효율적이며 구현이 간단하며, 현대 딥러닝 프레임워크에서 매우 최적화된 행렬 곱셈만을 포함한다. 더 중요한 점은, 제안된 아키텍처가 이미지 수준의 분류를 비롯해 밀도 기반 탐지 및 세그멘테이션에 이르기까지 다양한 시각 작업에서 뛰어난 성능을 달성한다는 것이다. 이러한 단순성과 뛰어난 성능은 제안된 아키텍처가 여러 시각 작업의 강력한 기반 모델(백본)로 활용될 수 있음을 시사한다. 코드는 https://github.com/Meituan-AutoML/Twins 에 공개되어 있다.