2달 전
Zero-Shot Semantic Segmentation 제로샷 의미 분할
Maxime Bucher; Tuan-Hung Vu; Matthieu Cord; Patrick Pérez

초록
의미 분할 모델은 대규모 객체 클래스로 확장하는 능력에 한계가 있습니다. 본 논문에서는 새로운 과제인 제로샷 의미 분할을 소개합니다. 이는 훈련 예제가 전혀 없는 미지의 객체 카테고리에 대한 픽셀 단위 분류기를 학습하는 것을 목표로 합니다. 이를 위해 우리는 깊은 시각적 분할 모델과 의미 단어 임베딩에서 시각적 표현을 생성하는 방법을 결합한 새로운 아키텍처, ZS3Net을 제시합니다. 이러한 방식으로 ZS3Net은 테스트 시에 알려진 카테고리와 알려지지 않은 카테고리를 모두 처리해야 하는 픽셀 분류 작업(이를 "일반화된" 제로샷 분류라고 함)을 해결합니다. 또한, 알려지지 않은 클래스의 픽셀에 대해 자동 가짜 라벨링(pseudo-labeling)을 기반으로 하는 자기 학습(self-training) 단계를 통해 성능이 더욱 향상됩니다.두 가지 표준 분할 데이터셋인 Pascal-VOC와 Pascal-Context에서 우리는 제로샷 벤치마크를 제안하고 경쟁력 있는 기준선(baselines)을 설정합니다. 특히, Pascal-Context 데이터셋과 같은 복잡한 장면에서는 그래프 컨텍스트 인코딩(graph-context encoding)을 사용하여 클래스별 분할 맵(class-wise segmentation maps)에서 유래하는 공간 컨텍스트 사전 정보(spatial context priors)를 완전히 활용하기 위해 접근법을 확장합니다.