17일 전
다중스케일 비전 트랜스포머
Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer

초록
비디오 및 이미지 인식을 위한 다중 스케일 비전 트랜스포머(Multiscale Vision Transformers, MViT)를 제안한다. 이는 다중 스케일 특징 계층 구조의 핵심 아이디어를 트랜스포머 모델과 결합함으로써 이루어진다. 다중 스케일 트랜스포머는 여러 개의 채널-해상도 스케일 단계를 가진다. 입력 해상도와 낮은 채널 차원에서 시작하여, 단계적으로 채널 용량을 확장하면서 공간 해상도를 감소시킨다. 이를 통해 초기 레이어는 고해상도에서 작동하여 간단한 저수준 시각 정보를 모델링하고, 깊은 레이어는 공간적으로는 거친 그러나 복잡하고 고차원적인 특징을 처리하는 다중 스케일 피처 피라미드를 형성한다. 다양한 비디오 인식 작업에서 시각 신호의 밀집 특성을 모델링하기 위한 이 기본적인 아키텍처 사전 지식을 평가한 결과, 대규모 외부 사전 훈련에 의존하는 동시대의 비전 트랜스포머보다 우수한 성능을 보였으며, 계산량과 파라미터 수 측면에서 5~10배 더 비용이 들지 않는다. 또한 시간 차원을 제거하고 본 모델을 이미지 분류에 적용한 결과, 기존 비전 트랜스포머 연구들보다 우수한 성능을 달성하였다. 코드는 다음에서 공개되어 있다: https://github.com/facebookresearch/SlowFast