PiCIE: 클러스터링에서 불변성과 동변성 이용한 비지도 의미 분할

Annotation 없이 의미 분할(semantic segmentation)을 수행할 수 있는 새로운 프레임워크를 제안한다. 기존의 클러스터링 방법은 일반적으로 정제된(single-label), 객체 중심(object-centric) 이미지에 한해 적용 가능하지만, 현실 세계의 데이터는 대부분 정제되지 않은(multi-label), 장면 중심(scene-centric) 특성을 지닌다. 본 연구에서는 클러스터링을 이미지 수준에서 픽셀 수준으로 확장하여, 각 이미지 내에서 서로 다른 객체 인스턴스에 대해 별도의 클러스터 소속을 할당한다. 그러나 단순히 픽셀 간 특성 유사성에만 의존할 경우 고수준의 의미적 개념을 학습하지 못하고, 저수준의 시각적 신호에 과적합(overfitting)되는 문제가 발생한다. 이를 해결하기 위해, 광학적 및 기하학적 변형에 대해 불변성(invariance)과 동변성(equivariance)을 학습할 수 있도록 기하학적 일관성(geometric consistency)을 유도적 편향(inductive bias)으로 도입하는 방법을 제안한다. 본 연구에서 제안한 새로운 학습 목표를 통해 프레임워크는 고수준의 의미적 개념을 효과적으로 학습할 수 있다. 제안한 방법인 PiCIE(Pixel-level feature Clustering using Invariance and Equivariance)는 하이퍼파라미터 조정 없이도, 사전 처리 없이도 ‘사물(things)’과 ‘물건(stuff)’ 카테고리를 모두 정확하게 분할할 수 있는 최초의 방법이다. COCO 및 Cityscapes 데이터셋에서 기존의 주요 베이스라인 대비 각각 +17.5 Acc. 및 +4.5 mIoU의 성능 향상을 기록하며, 현저한 성능 우수성을 입증하였다. 또한 PiCIE가 전통적인 지도 학습(supervised training)의 초기화(initialization)로서 더 우수한 성능을 제공함을 보였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/janghyuncho/PiCIE.