연합과 정복: 확산 모델을 사용한 플러그 앤 플레이 다중 모드 합성

다양한 제약 조건을 만족하는 사진 생성은 콘텐츠 제작 산업에서 널리 활용되고 있습니다. 이 작업을 수행하기 위한 주요 장애물은 모든 모드(즉, 제약 조건)와 그에 해당하는 출력으로 구성된 짝 데이터가 필요하다는 점입니다. 또한, 새로운 조건을 도입하기 위해서는 기존 방법들이 모든 모드에 걸친 짝 데이터를 사용하여 재훈련이 필요합니다. 본 논문에서는 이러한 문제를 해결하기 위해 노이즈 제거 확산 확률 모델(DDPMs, Denoising Diffusion Probabilistic Models)을 기반으로 한 솔루션을 제안합니다. 확산 모델을 다른 생성 모델보다 선택한 이유는 확산 모델의 유연한 내부 구조 때문입니다. DDPM의 각 샘플링 단계가 가우시안 분포를 따르기 때문에, 우리는 다양한 제약 조건이 주어졌을 때 이미지를 생성하는 데 대한 폐형 해(close-form solution)가 존재함을 보여줍니다. 우리의 방법은 여러 하위 작업에서 훈련된 여러 확산 모델을 통합할 수 있으며, 우리가 제안한 샘플링 전략을 통해 결합된 작업을 극복할 수 있습니다. 또한, 샘플링 시간 동안 다양한 데이터셋에서 훈련된 사전 학습된(pre-trained) 확산 모델들을 사용하여 다중 제약 조건을 만족하는 원하는 결과로 안내할 수 있는 새로운 신뢰성 매개변수(reliability parameter)를 소개합니다. 우리는 다양한 표준 다중모달 작업에서 실험을 수행하여 우리의 접근 방식의 효과성을 입증하였습니다. 자세한 내용은 https://nithin-gk.github.io/projectpages/Multidiff/index.html 에서 확인할 수 있습니다.