
要約
現在の顔ランドマーク検出における教師あり手法は、大量の訓練データを必要とし、パラメータ数が膨大であるため特定のデータセットに過剰適合(overfitting)するリスクを抱えている。本研究では、現在広く利用可能な大量のラベルなし顔画像から、implicitな顔に関する知識を事前に生成するという新たな半教師あり手法を提案する。第一段階として、完全に教師なしの状態で、低次元の顔埋め込み(face embedding)を介して顔画像の再構成を実現する敵対的オートエンコーダ(adversarial autoencoder)を学習する。第二段階では、教師ありの段階として、デコーダに転移層(transfer layers)を交互に挿入し、色画像の生成タスクをランドマークヒートマップの予測タスクに再定義する。本研究で提案するフレームワーク(3FabRec)は、多数の標準ベンチマークにおいて最先端の性能を達成しており、特に注目すべきは、たった10枚の画像という極めて小さな訓練データセットに対しても、著しい精度を維持できることである。また、交互に挿入される層はデコーダに追加されるパラメータ数が非常に少ないため、GPU上で数100FPSという高速な推論が可能である。