17일 전

VAEBM: 변분 오토인코더와 에너지 기반 모델 간의 공생

Zhisheng Xiao, Karsten Kreis, Jan Kautz, Arash Vahdat
VAEBM: 변분 오토인코더와 에너지 기반 모델 간의 공생
초록

에너지 기반 모델(Energy-based models, EBMs)은 최근 소형 이미지의 복잡한 분포를 효과적으로 표현하는 데 성공해왔다. 그러나 EBMs에서 샘플링을 수행하기 위해서는 고차원 픽셀 공간에서 느리게 혼합되는 비용이 큰 마르코프 체인 몬테카를로(Markov chain Monte Carlo, MCMC) 반복 계산이 필요하다. 반면, 변분 오토인코더(Variational autoencoders, VAEs)는 빠르게 샘플을 생성할 수 있으며, 데이터 다양체를 빠르게 탐색할 수 있는 잠재 공간(latent space)을 갖추고 있다. 그러나 VAEs는 실제 데이터 분포 외부의 데이터 공간 영역에 높은 확률 밀도를 할당하는 경향이 있으며, 날카로운 이미지를 생성하는 데 종종 실패한다. 본 논문에서는 VAE와 EBM의 상호보완적인 조합인 VAEBM을 제안한다. 이 모델은 최신 기술을 적용한 VAE를 통해 데이터 분포의 전반적인 모드 구조를 포착하고, EBM 구성 요소를 통해 데이터 유사하지 않은 영역을 명시적으로 제외하며 이미지 샘플을 정교하게 개선한다. 또한 VAEBM 내의 VAE 구성 요소를 활용하여 MCMC 업데이트를 VAE의 잠재 공간에서 재매개변수화(reparameterization)함으로써 계산 속도를 크게 향상시킬 수 있다. 실험 결과, 여러 벤치마크 이미지 데이터셋에서 VAEBM은 최신 기술 수준의 VAE와 EBM보다 생성 품질 측면에서 큰 우위를 보였다. 짧은 MCMC 체인을 사용해 최대 256×256 픽셀 크기의 고해상도 이미지도 고품질로 생성할 수 있다. 또한 VAEBM이 완전한 모드 커버리지(모드 전체를 포괄하는 능력)를 제공하고, 비정상 데이터(Out-of-distribution) 탐지에서도 우수한 성능을 발휘함을 보여주었다. 소스 코드는 https://github.com/NVlabs/VAEBM 에서 공개되어 있다.