
초록
제로샷 검출(ZSD)은 모델이 몇몇 대상("비본" 클래스)의 시각적 샘플을 학습하지 않았음에도 불구하고 객체를 동시에 인식하고 위치를 결정하는 어려운 과제입니다. 최근에는 생성 모델(GANs)을 활용한 방법들이 가장 우수한 결과를 보여주고 있으며, 이는 비본 클래스 샘플을 본 클래스 데이터로 학습된 GAN을 통해 의미에 기반하여 생성함으로써 일반적인 객체 검출기가 비본 객체를 인식할 수 있도록 합니다. 그러나 의미 혼동 문제는 여전히 존재하며, 때때로 모델이 의미적으로 유사한 클래스들을 구분하지 못하는 경우가 있습니다. 본 연구에서는 클래스 간의 차이 정도를 인식하고 이를 생성된 샘플에 반영하도록 트리플트 손실(triplet loss)을 통합한 생성 모델을 학습하는 방법을 제안합니다. 또한, 순환 일관성 손실(cyclic-consistency loss)도 적용하여 특정 클래스의 생성된 시각적 샘플이 해당 클래스의 의미와 높은 일치성을 가지도록 합니다. MSCOCO와 PASCAL-VOC 두 벤치마크 ZSD 데이터셋에서 수행된 광범위한 실험들은 현재 ZSD 방법론보다 크게 개선되었음을 보여주며, 의미 혼동을 줄이고 비본 클래스의 검출 성능을 향상시킵니다.