
이 논문은 다층 생성 모델(다층 생성기 모델)을 학습하는 기본적인 문제를 탐구한다. 다층 생성 모델은 생성기 위에 여러 층의 잠재 변수(latent variables)를 구성하여 사전 모델(prior model)로 활용함으로써, 복잡한 데이터 분포와 계층적 표현을 효과적으로 학습할 수 있다. 그러나 기존의 이러한 사전 모델은 보통 잠재 변수 간의 층 간 관계를 모델링하기 위해 비정보성(조건부) 가우시안 분포를 가정하는 방식을 채택하고 있으며, 이는 모델의 표현력 측면에서 한계를 가질 수 있다. 이러한 문제를 해결하고 더 표현력이 풍부한 사전 모델을 학습하기 위해, 본 논문에서는 다층 생성기를 핵심 구조로 삼아, 모든 층의 잠재 변수들에 대한 공동 잠재 공간(joint latent space)에 기반한 에너지 기반 모델(EBM, Energy-Based Model)을 제안한다. 이 공동 잠재 공간 기반 EBM 사전 모델은 각 층의 에너지 항(energy terms)을 통해 층 내부의 맥락적 관계(intra-layer contextual relations)를 포착하고, 서로 다른 층에 위치한 잠재 변수들이 공동으로 보정되도록 한다. 우리는 최대우도추정(MLE, Maximum Likelihood Estimation)을 기반으로 한 공동 학습 방식을 개발하였으며, 이는 각 층의 잠재 변수에 대한 사전 및 사후 분포로부터 마르코프 체인 몬테카를로(MCMC, Markov Chain Monte Carlo) 샘플링을 포함한다. 효율적인 추론과 학습을 보장하기 위해, 비용이 큰 사후 MCMC 샘플링을 보완하기 위해 추론 모델(inference model)을 활용하는 변분 학습 방식(variational training scheme)도 제안한다. 실험 결과, 학습된 모델이 고해상도 이미지를 풍부하게 생성하고, 계층적 특징을 효과적으로 포착함으로써 이상 탐지(anomaly detection) 성능을 향상시킬 수 있음을 입증하였다.