
要約
深層ネットワークに基づく確率密度モデルは、複雑な高次元データセットのモデリングにおいて顕著な成功を収めている。しかし、カーネル密度推定器とは異なり、現代のニューラルモデルは、通常、周辺分布や条件付き分布を閉形式で得ることができない。これは、これらの量を計算する際にしばしば取り扱いが困難な積分を評価する必要があるためである。本研究では、変数の任意の部分集合に関する確率、周辺分布、条件付き分布を閉形式で表現できる新たな深層ネットワークアーキテクチャである「マージナライザブル・ディンシティ・モデル近似器(Marginalizable Density Model Approximator: MDMA)」を提案する。MDMAは、各変数に対して深層スカラー表現を学習し、学習された階層的テンソル分解を用いてそれらを組み合わせることで、取り扱いが可能でありながら表現力に富んだ累積分布関数(CDF)を構築する。このCDFから、周辺分布や条件付き密度を容易に導出可能となる。我々は、従来の深層ネットワークベースの密度推定モデルでは到達できなかったいくつかのタスクにおいて、正確なマージナライザビリティの利点を示す。具体的には、任意の変数部分集合間の相互情報量の推定、条件付き独立性の検定による因果関係の推論、データ欠損に対する補完処理を必要とせずに推論を行うといった課題において、最先端モデルを上回る性能を発揮する。また、本モデルは変数数に対する時間計算量が対数的依存性に留まるため、並列化されたサンプリングが可能であり、スケーラビリティに優れている。