
要約
高次元生成モデルは、画像圧縮、マルチメディア生成、異常検出、データ補完など、多岐にわたる応用を持つ。自然画像に対する最先端の推定手法は、自己回帰型(autoregressive)であり、画素の同時分布を、深層ニューラルネットワーク(例えば畳み込みニューラルネットワークであるPixelCNNなど)によってパラメータ化された条件付き分布の積に分解する。しかし、PixelCNNは同時分布の単一の分解しかモデル化できず、効率的な生成順序も一つに限定される。画像補完などのタスクにおいて、これらのモデルは観測されたコンテキストの多くを活用できない。任意の生成順序でデータを生成可能とするために、本研究ではLMConvを提案する。LMConvは、標準的な2次元畳み込みに簡単な修正を加えることで、画像内の各位置において任意のマスクを重みに適用可能にする。LMConvを用いることで、パラメータを共有しつつ生成順序が異なる複数の分布推定器の集合(アンサンブル)を学習可能となり、全体画像の密度推定(無条件CIFAR10で2.89 bpd)および空間的に整合性の高い画像補完において、より優れた性能を達成した。本研究のコードは、https://ajayjain.github.io/lmconv にて公開されている。