개체와 이미지 수준 표현 간의 격차를 연결하는 방법으로 개방형 어휘 검출 수행

기존의 오픈 보카브러리 객체 검출기는 다양한 형태의 약한 감독을 활용하여 어휘 크기를 확대하는 것이 일반적입니다. 이는 추론 시 새로운 객체에 대한 일반화를 도와줍니다. 오픈 보카브러리 검출(OVD)에서 주로 사용되는 두 가지 유형의 약한 감독은事前訓練된 CLIP 모델과 이미지 수준의 감독입니다(Pretrained CLIP Model and Image-Level Supervision). 우리는 이러한 두 가지 감독 방식이 모두 검출 작업에 최적으로 맞춰져 있지 않다는 점을 지적합니다: CLIP은 이미지-텍스트 쌍으로 훈련되었지만 객체의 정확한 위치 정보가 부족하며, 이미지 수준의 감독은 객체 지역을 정확히 지정하지 않는 휴리스틱 방법과 함께 사용되어 왔습니다.본 연구에서는 이 문제를 해결하기 위해 CLIP 모델에서 얻은 언어 임베딩을 객체 중심으로 맞추는 방법을 제안합니다. 또한, 고유 라벨링 과정을 통해 이미지 수준의 감독만으로도 높은 품질의 객체 제안을 제공하고, 학습 중 어휘를 확장할 수 있도록 시각적으로 객체를 기반으로 합니다. 우리는 이러한 두 가지 객체 맞춤 전략 사이에 새로운 가중치 전송 함수를 통해 연결 다리를 구축하여 그들의 보완적인 강점을 집약화하였습니다. 본 연구에서 제안된 모델은 OVD 환경에서 객체 중심 표현과 이미지 중심 표현 간의 차이를 최소화하려는 목표를 가지고 있습니다.COCO 벤치마크에서 제안된 접근법은 새로운 클래스에 대해 36.6 AP50 성능을 달성하였으며, 이전 최고 성능 대비 절대적으로 8.2 포인트 개선되었습니다. LVIS 벤치마크에서는 희귀 카테고리에 대해 기존 최신 ViLD 모델보다 5.0 마스크 AP가 높으며, 전체적으로 3.4 포인트 우위를 보였습니다. 코드: https://github.com/hanoonaR/object-centric-ovd.注:在翻译中,我保留了原文中的英文术语 "Pretrained CLIP Model and Image-Level Supervision" 并将其放在括号内,以确保信息的完整性。同时,我也注意到了一些术语如 "AP50" 和 "mask AP" 在韩语中通常会直接使用英文形式。