18일 전

비디오 스위н 트랜스포머

Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu
비디오 스위н 트랜스포머
초록

비전 분야는 CNN에서 Transformer로의 모델링 전환을 목격하고 있으며, 순수한 Transformer 아키텍처가 주요 비디오 인식 벤치마크에서 최상의 정확도를 달성하고 있다. 이러한 비디오 모델들은 공간적 및 시간적 차원을 across한 패치들을 전역적으로 연결하는 Transformer 레이어 기반으로 구성된다. 본 논문에서는 이와 달리, 비디오 Transformer에 국소성(inductive bias of locality)을 도입하는 것을 제안한다. 이는 공간-시간 분해를 적용해도 여전히 전역적으로 자기주의(self-attention)를 계산하는 기존 접근법에 비해 더 우수한 속도-정확도 트레이드오프를 제공한다. 제안하는 비디오 아키텍처의 국소성은 이미지 영역에 특화된 Swin Transformer를 적응시켜 실현하였으며, 동시에 사전 훈련된 이미지 모델의 강력한 능력을 유지한다. 본 연구 방법은 다양한 비디오 인식 벤치마크에서 최신 기술 수준의 정확도를 달성하였으며, 특히 동작 인식(Kinetics-400에서 84.9의 top-1 정확도, Kinetics-600에서 86.1의 top-1 정확도) 및 시간적 모델링(Something-Something v2에서 69.6의 top-1 정확도) 측면에서 뛰어난 성능을 보였다. 이 성능은 사전 훈련 데이터량의 약 20배 감소 및 모델 크기의 약 3배 축소 조건에서도 달성되었다. 코드와 모델은 https://github.com/SwinTransformer/Video-Swin-Transformer에서 공개될 예정이다.