
이 논문은 테스트 이미지에서 기존에 학습된 클래스뿐 아니라 새로운 클래스까지 탐지해야 하는 오픈-보이지 않는 객체 탐지(open-vocabulary object detection, OVOD)라는 도전적인 문제를 다룬다. 이 과정에서 새로운 클래스에 대한 레이블링된 예시는 학습 단계에서 제공되지 않는다. OVOD의 일반적인 접근 방식은 CLIP의 텍스트-이미지 통합 임베딩을 활용하여 박스 제안들을 가장 유사한 텍스트 레이블에 할당하는 것이다. 그러나 이 방법에는 중요한 문제점이 존재한다. CLIP는 객체의 정확한 위치 정보에 대해 학습되지 않았기 때문에, 고품질 박스와 저품질 박스(예: 과도하게 확대되거나 과소하게 포함된 객체 박스)가 동일한 유사도 점수를 갖게 되며, 이로 인해 탐지 성능이 저하된다. 이러한 문제를 해결하기 위해, 우리는 새로운 클래스의 텍스트에 대해 가장 관련성이 높은 영역 제안들로부터 추출한 가짜 레이블(pseudo labels)을 기반으로 시그모이드 선형 분류기를 학습함으로써 저품질 박스를 제거하는 LP-OVOD라는 새로운 방법을 제안한다. COCO 데이터셋에서의 실험 결과는 제안하는 방법이 기존 최고 수준의 기법보다 뛰어난 성능을 보임을 입증하였으며, 외부 데이터셋을 사용하지 않고도, 학습 시 새로운 클래스를 사전에 알지 못한 상태에서 ResNet50을 백본으로 사용하여 $\textbf{40.5}$의 $\text{AP}_{novel}$ 성능을 달성하였다. 코드는 https://github.com/VinAIResearch/LP-OVOD 에서 공개될 예정이다.