
초록
최근 디노이징 확산 확률 모델(Denoising Diffusion Probabilistic Models)은 최첨단 생성 성능을 보여주며, 강력한 픽셀 수준의 표현 학습자로 활용되고 있다. 본 논문은 확산 모델 내재의 생성 능력과 표현 학습 능력 간의 상호관계를 분해한다. 우리는 전통적인 확산 모델에서 사용하는 덧셈형 가우시안 노이즈 대신 마스킹 메커니즘을 도입한 마스킹 확산 모델(Masked Diffusion Model, MDM)을 제안한다. 이는 의미 분할(semantic segmentation)을 위한 확장 가능한 자기지도 학습 표현 학습자로서의 역할을 수행한다. 제안하는 방법은 기존의 벤치마크를 뚜렷하게 능가하며, 특히 소수 샘플(few-shot) 환경에서 의료 이미지 및 자연 이미지의 의미 분할 과제에서 뛰어난 성과를 보여주어 상당한 진전을 입증한다.