의미 지도 대조적 네트워크를 이용한 제로샷 객체 검출

제로샷 객체 검출(ZSD)은 기존의 검출 모델을 미리 보지 못한 범주에 대한 객체 검출로 확장하는 과제로, 컴퓨터 비전 분야에서 새로운 도전과제로 부각되고 있습니다. 대부분의 기존 접근 방식은 ZSD 과제를 엄격한 매핑 전이 전략으로 해결하려고 하지만, 이는 최적의 ZSD 결과를 얻지 못하게 할 수 있습니다: 1) 이러한 모델들의 학습 과정은 미리 보지 못한 클래스 정보를 무시하기 때문에, 쉽게 이미 본 범주들에 편향될 수 있습니다; 2) 원래 시각적 특성 공간이 잘 구조화되지 않았으며 차별화된 정보가 부족합니다.이러한 문제들을 해결하기 위해, 우리는 새로운 의미론 유도 대조학습 네트워크인 ContrastZSD를 개발하였습니다. ContrastZSD는 제로샷 검출 영역에 처음으로 대조학습 메커니즘을 도입한 검출 프레임워크입니다. 특히, ContrastZSD는 지역-범주와 지역-지역 쌍 간의 대조를 각각 수행하는 두 개의 의미론 유도 대조학습 서브넷을 통합합니다. 쌍대 대조 작업은 지면 진실 라벨과 사전 정의된 클래스 유사성 분포로부터 파생된 추가적인 감독 신호를 활용합니다. 이러한 명시적인 의미론적 감독 아래에서, 모델은 미리 보지 못한 범주들에 대한 더 많은 지식을 학습하여 이미 본 개념들에 대한 편향 문제를 피하면서, 시각적 특성의 데이터 구조를 최적화하여 더 나은 시각-의미론적 일치성을 얻을 수 있습니다.PASCAL VOC와 MS COCO라는 두 가지 인기 있는 ZSD 벤치마크에서 광범위한 실험이 수행되었습니다. 실험 결과는 우리의 방법이 ZSD 및 일반화된 ZSD 과제 모두에서 이전 최신 연구보다 우수함을 보여줍니다.