디퓨전-GAN: 디퓨전을 활용한 GAN 훈련

생성적 적대 신경망(GAN)은 안정적인 학습이 어렵다는 점에서 도전 과제를 안고 있으며, 판별자 입력에 인스턴스 노이즈를 주입하는 방식은 이 문제에 대한 유망한 해결책으로 여겨졌지만, 실용적인 측면에서는 별로 효과적이지 못했다. 본 논문에서는 전방 확산 체인(forward diffusion chain)을 활용하여 가우시안 믹스처 분포를 가진 인스턴스 노이즈를 생성하는 새로운 GAN 프레임워크인 Diffusion-GAN을 제안한다. Diffusion-GAN은 적응형 확산 과정, 확산 타임스텝에 따라 달라지는 판별자, 그리고 생성자로 구성된 세 가지 핵심 요소를 포함한다. 관측된 데이터와 생성된 데이터 모두 동일한 적응형 확산 과정을 거친다. 각 확산 타임스텝에서 노이즈 대 데이터 비율이 다르게 설정되며, 타임스텝에 따라 변화하는 판별자는 확산된 진짜 데이터와 확산된 생성된 데이터를 구분하도록 학습한다. 생성자는 전방 확산 체인을 통해 역전파(backpropagation)를 수행하면서 판별자의 피드백을 바탕으로 학습하며, 이 확산 체인의 길이는 노이즈 수준과 데이터 수준 간의 균형을 적응적으로 조절한다. 이론적으로 우리는 판별자의 타임스텝 의존 전략이 생성자에게 일관되고 유용한 지침을 제공함으로써 진정한 데이터 분포를 정확히 학습할 수 있도록 한다는 점을 입증한다. 다양한 데이터셋에서 강력한 GAN 기준 모델들과 비교하여 Diffusion-GAN의 우수성을 입증하였으며, 최신 기술 대비 더 현실적인 이미지를 더 높은 안정성과 데이터 효율성으로 생성할 수 있음을 보였다.