
要約
顔のランドマークは互いに高い相関性を持っています。あるランドマークは、その近隣のランドマークから推定することができます。既存の深層学習手法の多くは、形状予測層と呼ばれる1つの全結合層のみを使用して顔のランドマーク位置を推定しています。本論文では、複数の形状予測層を持つ新しい深層学習フレームワークであるマルチセンター学習(Multi-Center Learning)を提案します。特に、各形状予測層はそれぞれ意味的に関連するランドマーク群の検出に重点を置いています。難易度の高いランドマークが最初に焦点を当てられ、その後各ランドマーク群がさらに最適化されます。また、モデルの複雑さを減らすために、複数の形状予測層を1つの形状予測層に統合するモデルアセンブリ方法も提案しています。広範な実験により、当手法がリアルタイム性能で複雑な遮蔽や外観変動に対処する効果性が示されています。当手法に関するコードは、https://github.com/ZhiwenShao/MCNet-Extension で公開されています。