Zero-shot Object Detection을 위한 극성 손실(Polarity Loss)

전통적인 객체 검출 모델은 대량의 학습 데이터를 필요로 합니다. 반면, 인간은 새로운 객체의 의미적 설명만으로도 이전에 본 적 없는 객체를 인식할 수 있습니다. 이러한 행동을 모방하기 위해, 제로샷 객체 검출은 오직 의미 정보만을 사용하여 '미처 보지 못한' 객체 인스턴스를 인식하고 위치 결정하는 것을 목표로 합니다. 모델은 먼저 시각적 영역과 의미적 영역 사이의 관계를 학습하기 위해 보지 않은 객체에 대해 훈련받고, 나중에 얻은 지식을 완전히 새로운 객체로 전이시킵니다. 이러한 설정은 미처 보지 못한 객체가 오직 그들의 의미적 속성만으로 식별될 수 있도록 시각적-의미적 개념 간의 올바른 일치성을 요구합니다. 본 논문에서는 개선된 제로샷 객체 검출을 위한 새로운 손실 함수인 '폴라리티 손실(Polarity loss)'을 제안합니다. 한편으로는 관련 개념들의 '의미 어휘집(Semantic vocabulary)'에서 측정 학습을 통해 노이즈가 포함된 의미 임베딩을 정교화하여 시각적 영역과 의미적 영역 간의 더 나은 협력을 구축합니다. 다른 한편으로는 보지 않은 객체와 배경 객체 사이에서 더 나은 구분력을 얻기 위해 양성 예측과 음성 예측 사이의 간격을 명시적으로 최대화합니다. 우리의 접근 방식은 인지 과학에서의 현상학 이론에 영감을 받아, 인간의 의미 이해가 과거 경험(보지 않은 객체), 관련 언어 개념(단어 어휘집) 및 시각 인식(보지 않은/보지 못한 객체 이미지)에 기반한다는 주장을 바탕으로 하고 있습니다. 우리는 MS-COCO와 Pascal VOC 데이터셋에서 광범위한 평가를 수행하였으며, 이는 기존 최신 연구보다 상당한 개선점을 보여주었습니다.