18日前

エンコーダ-デコーダ型CNNのカスケード構造と学習可能な座標回帰器を用いた頑健な顔面ランドマーク検出

{Luis Baumela, Jose M. Buenaposada, Roberto Valle}
要約

畳み込みニューラルネットワーク(CNN)は、多くのコンピュータビジョン問題において標準的な技術として定着している。顔のランドマーク検出に用いられるCNNは非常に頑健であるものの、制約のない条件下で取得された画像を処理する際には依然として精度に課題を抱えている。本研究では、ランドマークの推定精度を向上させるために、ニューラルネット回帰器のカスケード構造を活用する手法を検討する。具体的には、同一のアーキテクチャを持つ2つのエンコーダデコーダ型CNNを連結する。最初のネットワークは、ランドマーク位置の粗い推定値をもつヒートマップ群を出力する。2番目のネットワークは、合成的に生成された遮蔽状況を用いて訓練され、曖昧または遮蔽されたランドマークの位置を精緻に修正する。最後に、すべてのヒートマップ間で重みを共有する密結合層を用いて、ランドマーク座標を高精度で回帰する。提案手法は、広く最も挑戦的な公開データセットとして知られる300W、COFW、WFLWにおいて、最先端の性能を達成した。