17일 전

MViTv2: 분류 및 탐지를 위한 개선된 다중 스케일 비전 트랜스포머

Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer
MViTv2: 분류 및 탐지를 위한 개선된 다중 스케일 비전 트랜스포머
초록

본 논문에서는 Multiscale Vision Transformers (MViTv2)를 이미지 및 비디오 분류, 객체 탐지에 대한 통합 아키텍처로 연구한다. 우리는 분해된 상대적 위치 임베딩과 잔차 풀링 연결을 포함하는 개선된 MViT 버전을 제안한다. 본 아키텍처를 다섯 가지 크기로 구현하여 ImageNet 분류, COCO 객체 탐지, Kinetics 비디오 인식에서 평가하였으며, 이전 연구들보다 우수한 성능을 보였다. 또한 MViTv2의 풀링 어텐션을 윈도우 어텐션 메커니즘과 비교하여, 정확도 대비 계산량 측면에서 더 뛰어난 성능을 확인하였다. 복잡한 부가 기능 없이도 MViTv2는 세 가지 분야에서 최신 기술 수준의 성능을 달성하였으며, ImageNet 분류에서는 88.8%의 정확도, COCO 객체 탐지에서는 58.7 boxAP, Kinetics-400 비디오 분류에서는 86.1%의 정확도를 기록하였다. 코드 및 모델은 https://github.com/facebookresearch/mvit 에서 제공된다.