3달 전

DiffuseVAE: 저차원 잠재공간에서 효율적이고 조절 가능하며 고해상도 생성

Kushagra Pandey, Avideep Mukherjee, Piyush Rai, Abhishek Kumar
DiffuseVAE: 저차원 잠재공간에서 효율적이고 조절 가능하며 고해상도 생성
초록

확산 확률 모델은 여러 경쟁적인 이미지 합성 벤치마크에서 최고 수준의 성능을 보여주었지만, 저차원이고 해석 가능한 잠재 공간을 갖추지 못하고 있으며, 생성 속도가 느리다는 단점이 있다. 반면, 전통적인 변분 오토인코더(Variational Autoencoders, VAEs)는 일반적으로 저차원 잠재 공간에 접근할 수는 있으나, 생성 샘플의 품질이 낮은 편이다. 본 연구에서는 VAE를 확산 모델 프레임워크 내에 통합한 새로운 생성 프레임워크인 DiffuseVAE를 제안한다. 이를 통해 확산 모델에 대한 새로운 조건부 파라미터화 방법을 설계할 수 있다. 제안된 모델은 확산 모델에 저차원의 VAE에 의해 추정된 잠재 코드를 제공함으로써, 제어 가능한 합성과 같은 후속 작업에 활용할 수 있도록 한다. 또한, 표준 무조건적 DDPM/DDIM 모델이 보이는 속도 대 품질 간의 트레이드오프를 명시적인 목적을 두지 않고도 개선한다. 예를 들어, CelebA-HQ-128 벤치마크에서 T=10의 역과정 단계를 사용할 때, 표준 DDIM 대비 FID 점수가 16.47에서 34.36으로 향상된다. 더불어, CIFAR-10 및 CelebA-64와 같은 표준 이미지 합성 벤치마크에서 최신 기술 수준의 모델과 비슷한 합성 품질을 달성하면서, 대부분의 기존 VAE 기반 방법보다 우수한 성능을 보인다. 마지막으로, 제안된 방법이 조건부 신호 내 다양한 유형의 노이즈에 대해 본질적으로 일반화됨을 보여준다. 재현성을 위해 본 연구의 소스 코드는 공개되어 있으며, https://github.com/kpandey008/DiffuseVAE 에서 확인할 수 있다.