7일 전

NVAE: 심층 계층적 변분 오토인코더

Arash Vahdat, Jan Kautz
NVAE: 심층 계층적 변분 오토인코더
초록

정규화 흐름( normalizing flows), 자기회귀 모델(autoregressive models), 변분 오토인코더(Variational Autoencoders, VAEs), 그리고 심층 에너지 기반 모델은 심층 생성 학습을 위한 경쟁적인 가능도 기반 프레임워크들에 속한다. 이들 중 VAE는 빠르고 다루기 쉬운 샘플링과 접근이 용이한 인코딩 네트워크라는 장점을 지닌다. 그러나 현재는 정규화 흐름이나 자기회귀 모델과 같은 다른 모델들에 비해 성능 면에서 뒤처지고 있다. VAE 연구의 대부분은 통계적 도전 과제에 집중되어 있는 반면, 우리는 계층적 VAE를 위한 신경망 아키텍처를 정교하게 설계하는 새로운 방향을 탐구한다. 본 논문에서는 깊이 분리형 합성곱(depth-wise separable convolutions)과 배치 정규화(batch normalization)를 활용하여 이미지 생성을 위해 설계된 심층 계층적 VAE인 Nouveau VAE(NVAE)를 제안한다. NVAE는 정규 분포의 잔차 파라미터화(residual parameterization)를 갖추고 있으며, 스펙트럼 정규화(spectral regularization)를 통해 학습을 안정화시킨다. 우리는 NVAE가 MNIST, CIFAR-10, CelebA 64, CelebA HQ 데이터셋에서 자기회귀적이지 않은 가능도 기반 모델 중 최고 성능을 달성함을 보이며, FFHQ 데이터셋에서도 강력한 기준 모델을 제공함을 보여준다. 예를 들어, CIFAR-10에서 NVAE는 기존 최고 성능인 2.98 비트/차원을 2.91 비트/차원으로 개선하였으며, CelebA HQ에서는 고해상도의 품질 높은 이미지를 생성한다. 우리 지식으로는 NVAE가 256×256 픽셀 크기의 자연 이미지에 성공적으로 적용된 최초의 VAE이다. 소스 코드는 https://github.com/NVlabs/NVAE 에서 공개되어 있다.

NVAE: 심층 계층적 변분 오토인코더 | 최신 연구 논문 | HyperAI초신경