17일 전
DINO: 엔드투엔드 객체 탐지용 개선된 노이즈 제거 앵커 박스를 갖춘 DETR
Hao Zhang, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun Zhu, Lionel M. Ni, Heung-Yeung Shum

초록
우리는 종단간 객체 탐지기인 DINO(\textbf{D}ETR with \textbf{I}mproved de\textbf{N}oising anch\textbf{O}r boxes)를 제안한다. 본 논문에서 DINO는 노이즈 제거 학습을 위한 대조적 방식, 앵커 초기화를 위한 혼합 쿼리 선택 방식, 박스 예측을 위한 두 번의 향후 참조 전략을 도입함으로써 기존의 DETR 유사 모델보다 성능과 효율성에서 우수한 성능을 달성한다. ResNet-50 기반 및 다중 스케일 특징을 사용할 때, DINO는 COCO에서 12 에포크에 49.4AP, 24 에포크에 51.3AP를 달성하며, 이전 최고 성능을 기록한 DN-DETR 대비 각각 \textbf{+6.0}AP와 \textbf{+2.7}AP의 의미 있는 성능 향상을 보였다. DINO는 모델 크기와 데이터 크기 양쪽 모두에서 우수한 확장성을 보인다. 별도의 보조 기법 없이 Objects365 데이터셋에서 사전 학습을 수행한 SwinL 기반 모델로 DINO는 COCO \texttt{val2017}(\textbf{63.2}AP) 및 \texttt{test-dev}(\textbf{63.3}AP)에서 최고 성능을 기록하였다. 리더보드 상의 다른 모델들과 비교했을 때, DINO는 더 작은 모델 크기와 더 적은 사전 학습 데이터 크기로도 더 뛰어난 성능을 달성하였다. 본 연구의 코드는 \url{https://github.com/IDEACVR/DINO}에서 공개될 예정이다.