제로-라벨 및 희소 라벨 세분화를 위한 의미적 투영 네트워크

시맨틱 세그멘테이션은 컴퓨터 비전 분야에서 가장 기본적인 문제 중 하나이며, 이 맥락에서 픽셀 단위의 레이블링은 특히 비용이 많이 든다. 따라서 이미지 수준의 레이블이나 경계 상자(annotation)를 활용한 학습을 통해 어노테이션 작업을 줄이려는 다양한 시도가 이루어져 왔다. 본 논문에서는 이러한 접근을 한 단계 더 발전시켜, 시맨틱 세그멘테이션의 제로-샷 및 희소 샷 학습이라는 도전적인 과제에 초점을 맞춘다. 이 작업을 정의하면, 학습 과정에서 해당 클래스의 레이블이 전혀 존재하지 않은 경우(즉, 제로-레이블 시맨틱 세그멘테이션) 또는 매우 적은 수의 레이블 샘플만 존재하는 경우(즉, 희소-레이블 시맨틱 세그멘테이션)에도 모든 픽셀에 레이블을 할당하는 이미지 세그멘테이션을 의미한다. 우리의 목적은 기존에 관측한 클래스들로부터 얻은 지식을 새로운 클래스로 전이하는 것이다. 제안하는 시맨틱 프로젝션 네트워크(Semantic Projection Network, SPNet)는 시맨틱 세그멘테이션을 위한 어떤 네트워크에도 계층 수준의 시맨틱 정보를 엔드 투 엔드 방식으로 통합함으로써 이 목표를 달성한다. 또한 도전적인 COCO-Stuff 및 PASCAL VOC12 데이터셋을 기반으로 이 작업을 위한 벤치마크를 제안한다. 제안된 모델은 새로운 클래스를 효과적으로 세그멘테이션함으로써 고비용의 밀집 레이블링 문제를 완화할 뿐만 아니라, 기존 지식을 잊지 않고 새로운 클래스에 적응할 수 있는 일반화된 제로-샷 및 희소-샷 시맨틱 세그멘테이션 능력을 보여준다.