비디오 스위н 트랜스포머

비전 분야는 CNN에서 Transformer로의 모델링 전환을 목격하고 있으며, 순수한 Transformer 아키텍처가 주요 비디오 인식 벤치마크에서 최상의 정확도를 달성하고 있다. 이러한 비디오 모델들은 공간적 및 시간적 차원을 across한 패치들을 전역적으로 연결하는 Transformer 레이어 기반으로 구성된다. 본 논문에서는 이와 달리, 비디오 Transformer에 국소성(inductive bias of locality)을 도입하는 것을 제안한다. 이는 공간-시간 분해를 적용해도 여전히 전역적으로 자기주의(self-attention)를 계산하는 기존 접근법에 비해 더 우수한 속도-정확도 트레이드오프를 제공한다. 제안하는 비디오 아키텍처의 국소성은 이미지 영역에 특화된 Swin Transformer를 적응시켜 실현하였으며, 동시에 사전 훈련된 이미지 모델의 강력한 능력을 유지한다. 본 연구 방법은 다양한 비디오 인식 벤치마크에서 최신 기술 수준의 정확도를 달성하였으며, 특히 동작 인식(Kinetics-400에서 84.9의 top-1 정확도, Kinetics-600에서 86.1의 top-1 정확도) 및 시간적 모델링(Something-Something v2에서 69.6의 top-1 정확도) 측면에서 뛰어난 성능을 보였다. 이 성능은 사전 훈련 데이터량의 약 20배 감소 및 모델 크기의 약 3배 축소 조건에서도 달성되었다. 코드와 모델은 https://github.com/SwinTransformer/Video-Swin-Transformer에서 공개될 예정이다.