11일 전
라벨링되지 않은 데이터를 시각 및 언어 모델을 활용하여 객체 탐지에 활용하기
Shiyu Zhao, Zhixing Zhang, Samuel Schulter, Long Zhao, Vijay Kumar B.G, Anastasis Stathopoulos, Manmohan Chandraker, Dimitris Metaxas

초록
강력하고 일반적인 객체 탐지 프레임워크를 구축하기 위해서는 더 큰 레이블 공간과 더 큰 학습 데이터셋으로의 확장이 필요하다. 그러나 수천 개의 카테고리에 대한 레이블을 대규모로 확보하는 것은 현실적으로 비용이 지나치게 크다. 본 연구에서는 최근의 시각-언어 모델에서 제공하는 풍부한 의미 정보를 활용하여 레이블이 없는 이미지 내에서 객체를 위치 및 분류하는 새로운 방법을 제안한다. 이는 객체 탐지에 대한 의사 레이블(pseudo labels)을 효과적으로 생성하는 데 기여한다. 일반적이고 클래스에 구애받지 않는 영역 제안 기법을 기반으로, 시각-언어 모델을 사용하여 이미지의 각 영역을 후속 작업에 필요로 하는 어떤 객체 카테고리로 분류한다. 제안된 의사 레이블의 유용성을 개방형 어휘 탐지(open-vocabulary detection)와 반감독 객체 탐지(semi-supervised object detection)라는 두 가지 구체적인 작업에서 검증하였다. 개방형 어휘 탐지에서는 모델이 미지의 객체 카테고리로 일반화해야 하며, 반감독 탐지에서는 추가적인 레이블이 없는 이미지를 활용하여 모델 성능을 향상시켜야 한다. 실증적 평가 결과, 두 작업 모두에서 의사 레이블이 효과적임을 입증하였으며, 경쟁 기법들을 능가하고 개방형 어휘 객체 탐지 분야에서 새로운 최고 성능(state-of-the-art)을 달성하였다. 코드는 https://github.com/xiaofeng94/VL-PLM 에서 공개되어 있다.