17일 전
확산, 주의 집중, 분할: Stable Diffusion을 이용한 비지도 영역 지정 기반 제로샷 분할
Junjiao Tian, Lavisha Aggarwal, Andrea Colaco, Zsolt Kira, Mar Gonzalez-Franco

초록
이미지에 대한 고품질 세그멘테이션 마스크를 생성하는 것은 컴퓨터 비전 분야에서 핵심적인 과제이다. 최근 연구들은 대규모 지도 학습을 통해 거의 모든 이미지 스타일에 대해 제로샷 세그멘테이션을 가능하게 하거나, 밀도 높은 어노테이션 없이도 세그멘테이션을 수행할 수 있도록 비지도 학습을 탐구해왔다. 그러나 어떤 어노테이션도 없이 제로샷 방식으로 어떤 이미지도 세그멘테이션할 수 있는 모델을 구축하는 것은 여전히 도전적인 과제이다. 본 논문에서는 사전 훈련된 스테이블 디퓨전 모델이 어텐션 레이어 내부에서 객체에 대한 내재된 개념을 학습했다는 점에 착안하여, 이 모델의 자체 어텐션 레이어를 활용하여 이 목표를 달성하고자 한다. 구체적으로, 어텐션 맵 간의 KL 발산을 측정함으로써 간단하면서도 효과적인 반복 병합 과정을 제안한다. 이 과정을 통해 어텐션 맵을 유효한 세그멘테이션 마스크로 통합한다. 제안된 방법은 훈련이나 언어 의존성 없이도 어떤 이미지도 고품질 세그멘테이션을 추출할 수 있다. COCO-Stuff-27 데이터셋에서 본 방법은 기존 비지도 제로샷 최고 성능(SOTA) 방법보다 픽셀 정확도에서 26% 이상, 평균 IoU에서는 17% 이상 우수한 성능을 보였다. 프로젝트 페이지는 \url{https://sites.google.com/view/diffseg/home} 에서 확인할 수 있다.