要約
現代の顔認識において、従来の処理パイプラインは「検出 → 整列 → 表現 → 分類」の4段階から構成される。本研究では、3次元顔モデルを明示的に用いることで、整列ステップおよび表現ステップを見直し、分離的なアフィン変換を適用する手法を採用。また、9層構造の深層ニューラルネットワークから顔表現を導出している。この深層ネットワークは、標準的な畳み込み層ではなく、重み共有を行わない複数の局所接続層を用いており、パラメータ数は1億2000万以上に達する。そのため、これまでに存在する最大規模の顔画像データセット、4000人以上の個人に属する400万枚の顔画像から構成されるIDラベル付きデータセットを用いて学習を行った。このように学習された表現は、モデルベースの高精度な整列と大規模な顔データベースを組み合わせることで、制約のない環境下の顔に対しても非常に優れた汎化性能を示す。単純な分類器を用いても、Labeled Faces in the Wild(LFW)データセットにおいて97.35%の精度を達成し、現在の最先端技術の誤差を27%以上低減し、人間の性能に非常に近づいた。