6ヶ月前

概要

深層ニューラルネットワークは、顔のアライメントをはじめとする多くのコンピュータビジョン問題において優れた性能を発揮する。しかし、低解像度、遮蔽、あるいは敵対的攻撃によってテスト画像が困難な状況に置かれた場合、深層ニューラルネットワークの予測精度は著しく低下する。したがって、予測結果における不確実性を定量的に評価することは極めて重要である。回帰問題における不確実性を定量化するため、通常はターゲット変数にガウス分布を仮定する確率的ニューラルネットワークが用いられる。しかし、特にコンピュータビジョンタスクを含む現実世界の問題では、ガウス分布の仮定は強すぎる。多峰性や非対称性を示すより一般的な分布をモデル化するため、本研究ではカーネル密度推定を組み込んだ深層ニューラルネットワークの構築を提案する。具体的には、顔のアライメント問題に対して、最先端のアワーガラスニューラルネットワークを、ランドマークの確率マップを出力とする確率的ニューラルネットワーク枠組みに適応する。このモデルは条件付き対数尤度の最大化により学習される。さらに、出力確率マップを有効に活用するため、マルチステージ構造に拡張し、前の段階で得られたロジットマップを次の段階にフィードバックすることで、ランドマーク検出の精度を段階的に向上させる。ベンチマークデータセット上での広範な実験により、最先端の非制約的深層学習手法と比較して、提案するカーネル密度ネットワークは予測精度において同等または優れた性能を達成することが示された。また、予測結果に対してAleatoric不確実性の推定も可能である。

ソースPDF