
초록
최근 의미 분할(Semantic Segmentation)과 객체 검출(Object Detection) 연구는 급속한 발전을 이룩하였습니다. 그러나 전자는 동일한 객체의 서로 다른 인스턴스를 구분하지 못하며, 후자는 대략적인 경계 상자(Bounding Box) 수준에서 작동합니다. 본 논문에서는 각 픽셀에 객체 클래스와 인스턴스 식별 라벨을 할당하는 분할 맵을 생성하는 인스턴스 분할(Instance Segmentation) 시스템을 제안합니다. 대부분의 접근 방식은 객체 검출기를 수정하여 경계 상자 대신 세그먼트를 생성하도록 합니다. 반면, 우리의 방법은 초기 의미 분할 모듈을 기반으로 하며, 이 모듈은 인스턴스 서브네트워크에 입력됩니다. 이 서브네트워크는 초기 카테고리 수준의 분할 결과와 객체 검출기의 출력에서 얻은 힌트를 활용하여 종단간 CRF(Conditional Random Field) 내에서 인스턴스를 예측합니다. 본 모델의 이 부분은 이미지 당 변수 개수의 인스턴스를 생성하기 위해 동적으로 인스턴싱됩니다. 우리의 종단간 접근 방식은 후처리가 필요 없으며, 이미지를 전체적으로 고려하여 독립적인 제안들을 처리하지 않습니다. 따라서 일부 관련 연구와 달리, 픽셀이 여러 개의 인스턴스에 속할 수 없습니다. 또한, 파스칼 VOC(Pascal VOC) 및 시티스크페이즈(Cityscapes) 데이터셋에서 보여지는 최신 연구 결과(특히 높은 IoU 임계값에서)처럼 훨씬 정밀한 세그멘테이션이 이루어집니다.