17일 전

매우 깊은 VAE는 자기회귀 모델을 일반화할 수 있으며, 이미지에서 그들을 능가할 수 있다.

Rewon Child
매우 깊은 VAE는 자기회귀 모델을 일반화할 수 있으며, 이미지에서 그들을 능가할 수 있다.
초록

우리는 처음으로 자연 이미지 벤치마크 전반에서 PixelCNN보다 로그 가능도(log-likelihood) 성능을 뛰어넘으면서도 빠르게 샘플을 생성할 수 있는 계층적 VAE(hierarchical VAE)를 제안한다. 우리는 이론적으로 VAE가 충분히 깊어질 경우, 자회귀 모델(autoregressive models)뿐 아니라 더 빠르고 더 우수한 모델도 표현할 수 있음을 관찰한다. 그럼에도 불구하고, 역사적으로 자회귀 모델은 VAE보다 로그 가능도 측면에서 우수한 성능을 보여왔다. 이에 대해 깊이 부족이 원인일 수 있다는 가정을 검증하기 위해, 기존에 탐색된 것보다 훨씬 더 큰 확률적 깊이(stochastic depth)를 갖춘 VAE를 확장하여 CIFAR-10, ImageNet, FFHQ에서 평가하였다. PixelCNN과 비교했을 때, 이러한 매우 깊은 VAE들은 더 높은 가능도를 달성하고, 파라미터 수를 더 적게 사용하며, 샘플 생성 속도를 수천 배 빠르게 하며, 고해상도 이미지에 더 쉽게 적용할 수 있었다. 정성적 분석 결과, 이는 VAE가 효율적인 계층적 시각적 표현을 학습하기 때문으로 보인다. 본 연구의 소스 코드와 모델은 https://github.com/openai/vdvae에서 공개한다.

매우 깊은 VAE는 자기회귀 모델을 일반화할 수 있으며, 이미지에서 그들을 능가할 수 있다. | 최신 연구 논문 | HyperAI초신경