
초록
우리는 객체 검출을 위한 단순하고 계층적이지 않은 비전 트랜스포머(Vision Transformer, ViT)를 백본 네트워크로 탐구합니다. 이 설계는 원래의 ViT 아키텍처를 사전 학습을 위해 계층적 백본을 재설계하지 않고 객체 검출에 미세 조정(fine-tuning)할 수 있게 합니다. 미세 조정을 위한 최소한의 수정만으로도 우리의 단순 백본 검출기는 경쟁력 있는 결과를 달성할 수 있습니다. 놀랍게도 다음과 같은 관찰 결과를 얻었습니다: (i) 일반적인 FPN(Feature Pyramid Network) 설계 없이 단일 스케일 피처 맵에서 간단한 피처 피라미드를 구축하는 것이 충분하며, (ii) 시프팅(shifting) 없이 윈도우 어텐션(window attention)과 매우 적은 수의 크로스-윈도우 전파 블록(cross-window propagation blocks)을 사용하는 것이 충분하다는 점입니다. 마스크 오토인코더(Masked Autoencoders, MAE)로 사전 학습된 단순 ViT 백본을 사용하여, ViTDet라는 이름의 우리의 검출기는 계층적 백본 기반의 이전 선두 방법들과 경쟁할 수 있으며, COCO 데이터셋에서 ImageNet-1K 사전 학습만으로 최대 61.3 AP_box를 달성하였습니다. 우리는 이번 연구가 단순 백본 검출기에 대한 연구에 주목을 받기를 바랍니다. ViTDet의 코드는 Detectron2에서 제공됩니다.