17일 전
그룹 DETR v2: 인코더-디코더 전훈을 통한 강력한 객체 탐지기
Qiang Chen, Jian Wang, Chuchu Han, Shan Zhang, Zexian Li, Xiaokang Chen, Jiahui Chen, Xiaodi Wang, Shuming Han, Gang Zhang, Haocheng Feng, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

초록
우리는 인코더-디코더 사전 훈련 및 미세 조정 기반의 강력한 객체 탐지기 모델을 제안한다. 본 연구에서 제안하는 방법은 Group DETR v2로, ViT-Huge~\cite{dosovitskiy2020image}라는 비전 트랜스포머 인코더, DETR의 변형 모델인 DINO~\cite{zhang2022dino}, 그리고 효율적인 DETR 훈련 방법인 Group DETR~\cite{chen2022group}를 기반으로 구축되었다. 훈련 과정은 ImageNet-1K에서 ViT-Huge 인코더의 자기지도 학습 사전 훈련과 미세 조정, Object365에서 탐지기의 사전 훈련, 그리고 최종적으로 COCO에서의 미세 조정으로 구성된다. Group DETR v2는 COCO test-dev에서 $\textbf{64.5}$ mAP를 달성하며, https://paperswithcode.com/sota/object-detection-on-coco 링크를 통해 확인할 수 있는 COCO 랭킹에서 새로운 최고 성능(SoTA)을 수립하였다.