이미지 레벨 감독을 이용한 2만 개 클래스 검출

현재의 객체 검출기는 검출 데이터셋의 규모가 작기 때문에 어휘 크기에 제한이 있습니다. 반면 이미지 분류기는 데이터셋이 더 크고 수집하기 쉽기 때문에 훨씬 더 큰 어휘를 다룹니다. 우리는 Detic을 제안하는데, 이는 검출기의 분류기를 이미지 분류 데이터로 단순히 학습시켜 검출기의 어휘를 수만 개의 개념으로 확장합니다. 이전 연구와 달리, Detic은 모델 예측에 기반하여 박스에 이미지 라벨을 할당하는 복잡한 할당 방식이 필요하지 않아 구현이 훨씬 용이하며 다양한 검출 아키텍처와 백본과 호환됩니다. 우리의 결과는 Detic이 박스 주석이 없는 클래스에서도 우수한 검출기를 생성함을 보여주며, 오픈-어휘(open-vocabulary) 및 장미 꼬리(long-tail) 검출 벤치마크에서 모두 이전 연구보다 우수한 성능을 나타냅니다. Detic은 오픈-어휘 LVIS 벤치마크에서 모든 클래스에 대해 2.4 mAP, 새로운 클래스에 대해 8.3 mAP의 성능 향상을 제공합니다. 표준 LVIS 벤치마크에서는 모든 클래스 또는 희귀 클래스만 평가할 때 Detic이 각각 41.7 mAP를 얻어 샘플 수가 적은 객체 카테고리에서의 성능 차이를 줄였습니다. 처음으로, 우리는 ImageNet 데이터셋의 모든 21,000개 클래스로 검출기를 학습시키고 이를 미세 조정(finetuning) 없이 새로운 데이터셋으로 일반화할 수 있음을 보여주었습니다. 코드는 \url{https://github.com/facebookresearch/Detic}에서 확인할 수 있습니다.