
変分オートエンコーダー(Variational Auto-Encoders, VAEs)は、非教師学習において強力なアプローチである。VAEは、変分推論(Variational Inference, VI)を用いて、潜在変数モデルにおけるスケーラブルな近似事後推論を可能にする。VAEは、データを入力として受け取り、深層ニューラルネットワークでパラメータ化された変分族(variational family)を定義するエンコーダーを導入する。このエンコーダーはすべての観測値に共有され、推論コストを軽減する「償還(amortization)」の効果をもたらす。しかし、VAEのエンコーダーには、ある観測値とその意味を保つ変換(semantics-preserving transformation)を施したバージョンが、異なる潜在表現にマッピングされてしまうという望ましくない性質がある。この「一貫性の欠如」は、特に下流タスクにおいて学習された表現の品質を低下させ、一般化性能にも悪影響を及ぼす。本論文では、VAEにおける一貫性を強制するための正則化手法を提案する。そのアイデアは、観測値を条件としたときの変分分布と、その観測値のランダムな意味を保つ変換を条件としたときの変分分布の間のカルバック・ライブララー(Kullback-Leibler, KL)ダイバージェンスを最小化することにある。この正則化法は、あらゆるVAEに適用可能である。実験では、複数のベンチマークデータセット上で4種類の異なるVAEアーキテクチャにこの正則化を適用した結果、学習された表現の品質が常に向上し、一般化性能も改善された。特に、Nouveau Variational Auto-Encoder(NVAE)に適用した場合、MNISTおよびCIFAR-10において最先端(state-of-the-art)の性能を達成した。さらに、3次元データに対しても本手法を適用したところ、下流の分類タスクにおける精度を用いて評価した結果、優れた品質の表現が学習されていることが確認された。