비지도적 의미 분할을 위한 특징 대응 정보의 증류 기법

비지도(semi-supervised) 의미 분할은 이미지 집합 내에서 어떤 형태의 레이블링(annotation) 없이 의미 있는 의미 범주를 탐지하고 위치를 파악하는 것을 목표로 한다. 이 과제를 해결하기 위해 알고리즘은 각 픽셀에 대해 의미적으로 유의미하면서도 충분히 밀도 높고 분리 가능한 클러스터를 형성할 수 있도록 조밀한 특징(feature)을 생성해야 한다. 기존의 방법들은 단일한 엔드투엔드(end-to-end) 프레임워크를 통해 이를 달성한 반면, 본 연구에서는 특징 학습(feature learning)과 클러스터의 조밀화(cluster compactification)를 분리하는 새로운 접근을 제안한다. 실험적으로 우리는 현재의 비지도 특징 학습 프레임워크가 이미 충분히 밀도 높은 특징을 생성하며, 이러한 특징 간 상관관계가 의미적으로 일관성을 갖는다는 것을 확인하였다. 이러한 관찰을 바탕으로, 비지도 특징을 고품질의 이산적 의미 레이블로 정제하는 새로운 프레임워크인 STEGO(자기지도형 트랜스포머(Self-supervised Transformer)와 에너지 기반 그래프 최적화(Energy-based Graph Optimization)를 결합한 프레임워크)를 설계하였다. STEGO의 핵심은 의미 특징들이 서로 밀집된 클러스터를 형성하면서도 전체 데이터 코퍼스 내에서 의미적 관계를 유지하도록 유도하는 새로운 대조적 손실 함수(constrastive loss function)이다. STEGO는 CocoStuff(표현: +14 mIoU)와 Cityscapes(표현: +9 mIoU) 의미 분할 과제에서 기존 최고 성능보다 상당한 성능 향상을 달성하였다.