17일 전
ViDT: 효율적이고 효과적인 완전한 Transformer 기반 객체 탐지기
Hwanjun Song, Deqing Sun, Sanghyuk Chun, Varun Jampani, Dongyoon Han, Byeongho Heo, Wonjae Kim, Ming-Hsuan Yang

초록
Transformers는 특히 인식 작업에서 컴퓨터 비전 분야의 전반적인 환경을 변화시키고 있다. 탐지용 Transformer는 객체 탐지에 있어 처음으로 완전한 엔드투엔드 학습 시스템을 제공한 반면, 비전 Transformer는 이미지 분류를 위한 처음으로 완전히 Transformer 기반 아키텍처이다. 본 논문에서는 비전 Transformer와 탐지용 Transformer를 통합하여 효과적이고 효율적인 객체 탐지기인 ViDT(Vision and Detection Transformers)를 구축하였다. ViDT는 최근의 Swin Transformer를 개조하여 독립적인 객체 탐지기로 확장할 수 있도록 재구성된 어텐션 모듈을 도입하였으며, 다중 스케일 특징을 효과적으로 활용하고 탐지 성능을 향상시키는 데 필수적인 보조 기법들을 적용하는 계산 효율성이 높은 Transformer 디코더를 추가하였다. 이로 인해 계산 부담의 큰 증가 없이도 뛰어난 성능을 달성할 수 있다. Microsoft COCO 기준 데이터셋에서 수행된 광범위한 평가 결과에 따르면, ViDT는 기존의 완전히 Transformer 기반 객체 탐지기들 중에서 AP와 지연 시간 간의 최적의 균형을 달성하였으며, 대규모 모델에 대한 뛰어난 확장성 덕분에 49.2 AP를 기록하였다. 코드와 학습된 모델은 https://github.com/naver-ai/vidt 에서 공개될 예정이다.