2ヶ月前

遅れ推論ネットワークと変分オートエンコーダーにおける事後分布の崩壊

Junxian He; Daniel Spokoyny; Graham Neubig; Taylor Berg-Kirkpatrick
遅れ推論ネットワークと変分オートエンコーダーにおける事後分布の崩壊
要約

変分オートエンコーダ(Variational Autoencoder, VAE)は、深層潜在変数モデルとそれに伴う変分学習技術の組み合わせとして広く知られています。VAEはニューラル推論ネットワークを使用して潜在変数の事後分布を近似することで、周辺データ尤度の下限を効率的にパラメータ化し、勾配法を直接用いて最適化することが可能です。しかし、実際にはVAEの学習過程で「事後崩壊(Posterior Collapse)」と呼ばれる退化した局所最適解に陥ることがよくあります。この現象では、モデルが潜在変数を無視し、近似された事後分布が事前分布を模倣します。本稿では、学習動態の観点から事後崩壊を調査しました。初期段階において推論ネットワークがモデルの真の事後分布を近似できないことが原因で、モデルは潜在符号化を無視するよう促され、結果として事後崩壊が発生すると判明しました。この観察に基づき、推論遅延(Inference Lag)を軽減するための非常に単純なVAE学習への修正案を提案します。具体的には、潜在変数と観測値間の現在の相互情報量に応じて、各モデル更新前に推論ネットワークを積極的に最適化します。基本的なVAEに対して新たなモデル構成や大きな複雑さを導入せずに、当手法は従来の多くの研究で問題となっていた崩壊を回避することができます。経験的には、テキストおよび画像ベンチマークにおけるホールドアウト尤度において強力な自己回帰ベースラインを超える性能を示しており、より複雑な崩壊回避手法と競争力がある一方で大幅に高速であることが確認されています。