Swin Transformer: 이동 윈도우를 활용한 계층적 비전 Transformer

이 논문은 컴퓨터 비전 분야에서 일반적인 백본(Backbone)으로 사용할 수 있는 새로운 비전 트랜스포머, 즉 Swin 트랜스포머를 제안한다. 언어 분야에서의 트랜스포머를 비전 분야에 적용하려는 시도는 두 영역 간의 본질적인 차이에서 비롯되는 도전 과제를 수반한다. 예를 들어, 텍스트에서의 단어와 비교했을 때 이미지의 픽셀은 고해상도를 가지며, 시각적 객체의 크기 또한 매우 다양하다는 점이 그 예이다. 이러한 차이를 극복하기 위해, 우리는 이동된 윈도우(Shifted Windows)를 활용하여 표현을 계층적으로 계산하는 트랜스포머를 제안한다. 이 이동된 윈도우 구조는 자기 주의(Multi-head Self-Attention) 계산을 겹치지 않는 국소적 윈도우 내에 제한함으로써 계산 효율성을 높이는 동시에, 윈도우 간의 연결도 가능하게 한다. 이러한 계층적 아키텍처는 다양한 스케일에서의 패턴을 모델링할 수 있는 유연성을 가지며, 이미지 크기에 대해 선형적인 계산 복잡도를 갖는다. Swin 트랜스포머의 이러한 특성은 이미지 분류(이미지넷-1K에서 87.3% Top-1 정확도), 객체 탐지(COCO 테스트-디브에서 박스 AP 58.7, 마스크 AP 51.1), 그리고 세분적 분할(ade20k 검증 세트에서 mIoU 53.5)을 포함한 다양한 비전 작업에 유용하게 적용될 수 있다. 특히 COCO에서 이전 최고 성능 대비 박스 AP +2.7, 마스크 AP +2.6, ADE20K에서는 mIoU +3.2의 성능 향상을 기록하며, 트랜스포머 기반 모델이 비전 백본으로서의 잠재력을 입증한다. 또한, 계층적 설계와 이동된 윈도우 접근법은 전-MLP(All-MLP) 아키텍처에도 유익한 효과를 제공함을 확인하였다. 코드와 모델은 공개적으로 제공되며, 아래 URL에서 확인 가능하다: \url{https://github.com/microsoft/Swin-Transformer}.