2달 전

확률적 조건 확산 모델을 이용한 강건한 의미 이미지 합성

Juyeon Ko; Inho Kong; Dogyun Park; Hyunwoo J. Kim
확률적 조건 확산 모델을 이용한 강건한 의미 이미지 합성
초록

세マン틱 이미지 합성(Semantic Image Synthesis, SIS)은 세만틱 맵(라벨)에 대응하는 실제적인 이미지를 생성하는 작업입니다. 그러나 실제 응용 프로그램에서 SIS는 종종 노이즈가 있는 사용자 입력을 마주하게 됩니다. 이를 해결하기 위해, 우리는 Stochastic Conditional Diffusion Model (SCDM)을 제안합니다. 이 모델은 노이즈가 있는 라벨을 위한 SIS에 특화된 혁신적인 전진 과정과 생성 과정을 갖춘 강건한 조건부 확산 모델입니다. SCDM은 라벨 확산(Label Diffusion)을 통해 세만틱 라벨 맵을 확률적으로 변동시키는 방식으로 강건성을 향상시킵니다. 이 과정은 라벨을 이산 확산(discrete diffusion)하여 수행되며, 시간 단계가 증가함에 따라 노이즈가 있는 세만틱 맵과 깨끗한 세만틱 맵이 유사해집니다. 결국 $t=T$에서 두 맵은 동일해지게 되어, 깨끗한 이미지와 유사한 이미지를 생성할 수 있게 돕습니다. 이를 통해 강건한 생성이 가능해집니다. 또한, 우리는 클래스별 노이즈 스케줄(class-wise noise schedule)을 제안하여 클래스에 따라 라벨의 확산 정도를 차등화하였습니다. 우리는 벤치마크 데이터셋에서의 광범위한 실험과 분석을 통해 제안된 방법이 고품질 샘플을 생성함을 입증하였으며, 실제 응용 프로그램에서 인간의 오류를 시뮬레이션하는 새로운 실험 설계도 포함되었습니다. 코드는 https://github.com/mlvlab/SCDM 에서 제공됩니다.