
확산 모델(Diffusion models)은 이미지 생성 분야에서 뛰어난 성능을 보여왔다. 다양한 네트워크 구조를 가진 소수 샘플 세그멘테이션(Few-shot Semantic Segmentation, FSS) 모델들이 제안되었지만, 성능 향상은 포화 상태에 이르렀다. 본 논문은 FSS 작업에 확산 모델을 활용한 최초의 연구를 제안하며, 이를 DifFSS라 명명한다. DifFSS는 기존의 최첨단 FSS 모델의 네트워크 구조를 수정하지 않고도 그 성능을 크게 향상시킬 수 있는 새로운 FSS 패러다임이다. 구체적으로, 확산 모델의 강력한 생성 능력을 활용하여, 지원 이미지의 의미 마스크(semantic mask), 스케치(scribble), 또는 소프트 HED 경계(soft HED boundary)를 제어 조건으로 사용해 다양한 보조 지원 이미지를 생성한다. 이 생성 과정은 쿼리 이미지 내 클래스 내의 다양성—예를 들어 색상, 질감 변화, 조명 조건 등—을 모사한다. 결과적으로 FSS 모델은 더 다양한 지원 이미지를 참조할 수 있게 되어 보다 강건한 표현을 학습하게 되며, 이는 세그멘테이션 성능의 일관된 향상으로 이어진다. 기존의 고성능 FSS 모델을 기반으로 한 세 가지 공개 데이터셋에서 실시한 광범위한 실험을 통해 확산 모델이 FSS 작업에 효과적임을 입증하였다. 또한, 확산 모델의 다양한 입력 설정이 세그멘테이션 성능에 미치는 영향에 대해 심층적으로 탐구하였다. 이 새로운 패러다임이 AI 기반 생성 콘텐츠를 통합한 FSS 연구에 새로운 영감을 줄 것으로 기대된다. 코드는 https://github.com/TrinitialChan/DifFSS 에서 공개되어 있다.