2달 전

EAGLE: 객체 중심 비지도 의미 분할을 위한 고유 집합 학습

Chanyoung Kim; Woojung Han; Dayun Ju; Seong Jae Hwang
EAGLE: 객체 중심 비지도 의미 분할을 위한 고유 집합 학습
초록

의미 분할은 본질적으로 많은 양의 픽셀 단위 주석 데이터에 의존해 왔으며, 이로 인해 비지도 방법론이 등장하게 되었습니다. 이러한 방법론 중에서 자기 지도 비전 트랜스포머(self-supervised Vision Transformers)를 활용한 비지도 의미 분할(Unsupervised Semantic Segmentation, USS)은 표현력 있는 깊은 특징을 통해 꾸준히 발전하고 있습니다. 그러나 복잡한 객체가 포함된 이미지를 의미 분할하는 데는 여전히 주요한 과제가 남아 있습니다: 패치 단위 특징(patch-level features)에서 명시적인 객체 수준 의미 인코딩(object-level semantic encoding) 부족 문제입니다. 이 기술적 제약은 종종 다양한 구조를 가진 복잡한 객체의 부정확한 분할로 이어집니다. 이러한 간극을 메우기 위해, 우리는 비지도 의미 분할을 위한 객체 중심 표현 학습(object-centric representation learning)을 강조하는 새로운 접근 방식인 EAGLE를 제안합니다. 특히, 우리는 EiCue라는 스펙트럼 기법을 소개하는데, 이는 깊은 이미지 특징의 의미 유사성 행렬(semantic similarity matrix)과 이미지의 색상 친화도(color affinity)에서 파생된 고유 베이시스(eigenbasis)를 통해 의미와 구조적 힌트(semantic and structural cues)를 제공합니다. 또한, 우리의 객체 중심 대비 손실 함수(object-centric contrastive loss)와 EiCue를 결합함으로써 모델이 이미지 내부 및 간의 객체 특징 일관성(intra- and inter-image object-feature consistency)을 가지는 객체 수준 표현(object-level representations)을 학습하도록 안내합니다. COCO-Stuff, Cityscapes, 그리고 Potsdam-3 데이터셋에 대한 광범위한 실험 결과는 EAGLE가 복잡한 장면에서 정확하고 일관된 의미 분할을 보여주는 최신 USS 결과임을 입증하였습니다.