
要約
エネルギーに基づくモデル(Energy-based Models, EBMs)は、近年、小さな画像の複雑な分布を表現する上で高い成果を上げている。しかし、EBMからのサンプリングには、高次元のピクセル空間において混合が遅いため、計算コストの高いマルコフ連鎖モンテカルロ(MCMC)反復が必要となる。一方、変分自己符号化器(Variational Autoencoders, VAEs)は高速にサンプルを生成でき、データ多様体を迅速に探索できる潜在空間を備えている。しかし、VAEは実際のデータ分布外の領域に高い確率密度を割り当てがちであり、しばしば鮮明な画像の生成に失敗する傾向がある。本論文では、VAEとEBMを相互に補完する関係で組み合わせたVAEBMを提案する。VAEBMは最先端のVAEを用いてデータ分布の全体的なモード構造を捉え、EBMのコンポーネントにより、データに似ていない領域を明示的に除外し、画像サンプルの品質を向上させる。さらに、VAEBMにおけるVAEコンポーネントにより、MCMC更新をVAEの潜在空間上で再パラメータ化することで、更新の高速化を実現している。実験結果から、複数のベンチマーク画像データセットにおいて、VAEBMは最先端のVAEおよびEBMを大きく上回る生成品質を達成した。256×256ピクセルに達する高品質な画像を、短いMCMCチェーンで生成可能である。また、VAEBMが完全なモードカバレッジを実現し、分布外検出(out-of-distribution detection)においても優れた性能を発揮することを示した。ソースコードは https://github.com/NVlabs/VAEBM で公開されている。