소수 샘플 세분화에서 확산 모델의 잠재력 확보하기

확산 모델(Diffusion Model)은 이미지 생성 분야에서 주목할 만한 성과를 거두었을 뿐만 아니라, 레이블이 없는 데이터를 활용한 효과적인 사전 훈련 방법으로서의 잠재력을 보여주었다. 확산 모델이 의미적 대응(semantic correspondence)과 오픈 빈도어(segmentation) 분야에서 드러낸 광범위한 잠재력에 착안하여, 본 연구는 잠재 확산 모델(Latent Diffusion Model)을 소량 샘플(Small-shot) 의미 분할(Few-shot Semantic Segmentation)에 활용하는 방안에 대해 탐구한다. 최근 대규모 언어 모델의 문맥 내 학습(in-context learning) 능력에 영감을 받아, 소량 샘플 의미 분할은 문맥 내 분할(in-context segmentation) 과제로 진화하였으며, 이는 일반화된 분할 모델 평가의 핵심 요소로 부상하였다. 이러한 맥락에서 본 연구는 소량 샘플 의미 분할에 집중하며, 확산 기반의 일반화 분할 모델 개발을 위한 견고한 기반을 마련한다. 초기 연구 초점은 쿼리 이미지(query image)와 서포트 이미지(support image) 간의 상호작용을 어떻게 촉진할 수 있는지 이해하는 데 두며, 이를 통해 자기 주의(self-attention) 프레임워크 내에서 KV 융합(KV fusion) 방법을 제안한다. 이후 본 연구는 서포트 마스크로부터의 정보 융합을 최적화하고, 동시에 쿼리 마스크로부터의 합리적인 감독을 어떻게 제공할 수 있는지 재검토한다. 이러한 분석을 바탕으로, 기존 잠재 확산 모델의 생성 프레임워크를 최대한 보존하면서 사전 훈련된 사전 지식(prior)을 효과적으로 활용하는 간단하면서도 효과적인 프레임워크인 DiffewS를 제안한다. 실험 결과, 본 방법은 다양한 설정에서 기존 최고 성능(SOTA) 모델들을 상당히 뛰어넘는 성능을 보였다.