2달 전
불투명한 객체의 제로샷 검출을 위한 합성
Nasir Hayat; Munawar Hayat; Shafin Rahman; Salman Khan; Syed Waqas Zamir; Fahad Shahbaz Khan

초록
기존의 제로샷 검출 접근 방식은 시각적 특성을 보이는 객체에 대해 의미 영역으로 투영하여, 추론 과정에서 보지 못한 객체를 해당 의미와 일치시키는 것을 목표로 합니다. 그러나, 보지 못한 객체는 훈련 중에 절대로 시각화되지 않으므로, 검출 모델은 보이는 내용을 향해 편향되어 있어 보지 못한 객체를 배경이나 보이는 클래스로 라벨링하는 경향이 있습니다. 본 연구에서는 보지 못한 클래스의 시각적 특성을 합성하여, 모델이 시각 영역에서 보이는 객체와 보지 못한 객체 모두를 학습할 수 있도록 제안합니다. 이에 따라 주요 과제는, 단순히 클래스 의미만을 사용하여 보지 못한 객체를 정확하게 어떻게 합성할 것인가가 됩니다. 이러한 야심찬 목표를 달성하기 위해, 우리는 클래스-의미를 사용하여 특성을 생성할 뿐 아니라 이를 구별적으로 분리하는 새로운 생성 모델을 제안합니다. 또한 통합된 모델을 통해 합성된 특성이 클래스 내 차이를 나타내는 높은 다양성을 가지며, 감지된 바운딩 박스에서 변수적인 위치 결정 정밀도를 확보하도록 합니다. 우리는 제안된 접근 방식을 PASCAL VOC, MSCOCO, ILSVRC 검출 벤치마크 세 가지에서 기존 설정과 일반화된 설정 하에 테스트하였으며, 최신 방법들보다 인상적인 성능 개선을 확인하였습니다. 우리의 코드는 https://github.com/nasir6/zero_shot_detection 에서 제공됩니다.