
要約
顔ランドマークの局所化は、人間の顔に事前に定義された点を検出することを目的としており、近年のニューラルネットワークに基づく手法の発展に伴い、急速な進展を遂げている。しかし、制約のない環境下(特に顔の姿勢が大きく変化する状況)においては、依然として困難な課題が残っている。本論文では、顔の姿勢が大きく変化する状況における顔ランドマークの局所化に着目し、分割・集約戦略に基づいてこの問題に対処する手法を提案する。検索空間を分割するために、回帰のための参照として用いるアノテーションテンプレートの集合を提案する。このアプローチにより、顔の姿勢の大きな変動に対しても効果的に対応できる。各アノテーションテンプレートの予測結果に基づき、それらを統合する戦略を提案することで、大規模な姿勢変化に起因するランドマークの不確実性を低減する。全体として、本研究で提案する手法「AnchorFace」は、AFLW、300W、Menpo、WFLWの4つの困難なベンチマークにおいて、最先端の性能を達成するとともに、極めて高速な推論速度を実現した。コードは、https://github.com/nothingelse92/AnchorFace にて公開される予定である。