
要約
教師あり深層学習は、機械学習およびコンピュータビジョン分野における多くの認識問題に成功裏に適用されてきた。大規模な訓練データが提供される場合、複雑な多対一関数を非常に良好に近似できるものの、現在の教師あり深層学習手法には確率的推論機能が欠如しているため、複雑な構造化出力表現をモデル化することが困難である。本研究では、ガウス型潜在変数を用いたスケーラブルな深層条件付き生成モデルを構築し、構造化出力変数の扱いを可能とした。このモデルは確率的勾配変分ベイズ(stochastic gradient variational Bayes)の枠組み下で効率的に学習可能であり、確率的順方向推論を用いて高速な予測が実現できる。さらに、再帰的予測ネットワークアーキテクチャ、入力ノイズ注入、マルチスケール予測学習といった新たな戦略を提案することで、堅牢な構造化予測アルゴリズムの構築を実現した。実験により、決定論的深層ニューラルネットワークと比較して、確率的推論を用いた本手法が多様でありながら現実的な出力表現の生成において優れた性能を発揮することを示した。また、学習手法とアーキテクチャ設計における提案手法は相補的であり、Caltech-UCSD Birds 200およびLabeled Faces in the Wild(LFW)データセットのサブセットにおいて、強力なピクセルレベルのオブジェクトセグメンテーションおよび意味的ラベリング性能を達成した。