17日前

顔アライメント、ヘッドポーズ推定、顔追跡のための効率的なマルチタスクニューラルネットワーク

Jiahao Xia, Haimin Zhang, Shiping Wen, Shuo Yang, Min Xu
顔アライメント、ヘッドポーズ推定、顔追跡のための効率的なマルチタスクニューラルネットワーク
要約

畳み込みニューラルネットワーク(CNN)は、顔関連のアルゴリズムの性能を著しく向上させてきたが、実用的な場面において精度と効率の両立を維持することは依然として課題である。最先端の手法では、より高い性能を実現するために深層ネットワークを採用しているが、パラメータ数の増加および計算複雑度の上昇により、モバイルアプリケーションへの適用は難しい場合が多い。そこで本研究では、顔アライメント、顔追跡、頭部ポーズ推定の3つのタスクを統合的に処理する効率的なマルチタスクニューラルネットワーク「Alignment & Tracking & Pose Network(ATPN)」を提案する。具体的には、顔アライメントにおいて層数を抑えた状態で高い性能を達成するため、浅層特徴と深層特徴の間にショートカット接続を導入した。我々は、浅層特徴が顔の輪郭と強く対応しており、顔の構造情報を効果的に捉えることができることを発見した。この構造情報は顔アライメントにおいて極めて重要である。さらに、顔アライメントの結果をもとに低コストなヒートマップを生成し、これを特徴マップと統合することで、残りの2つのタスク(顔追跡および頭部ポーズ推定)の性能を向上させた。ヒートマップにより、ネットワークはランドマークの幾何学的構造情報と外見的特徴情報を併用して頭部ポーズを推定可能となり、また顔追跡においても注意喚起の手がかりを提供する。さらに、各フレームごとに顔検出を実行する必要がなくなるため、動画ベースのタスクにおけるリアルタイム性が大幅に向上する。本研究では、WFLW、300VW、WIDER Face、300W-LPの4つのベンチマークデータセットを用いてATPNの有効性を実証した。実験結果から、他の軽量モデルと比較して、はるかに少ないパラメータ数と低い計算複雑度で優れた性能を達成することが確認された。