2ヶ月前

顔検出におけるConvNetと3Dモデルのエンドツーエンド統合

Yunzhu Li; Benyuan Sun; Tianfu Wu; Yizhou Wang
顔検出におけるConvNetと3Dモデルのエンドツーエンド統合
要約

本論文では、野生環境での顔検出方法を提案し、ConvNet(深層畳み込みニューラルネットワーク)と3次元平均顔モデルをエンドツーエンドの多タスク判別学習フレームワークに統合しています。3次元平均顔モデルは事前に定義され固定されています(例:AFLWデータセットで提供されているものを使用しました)。ConvNetは以下の2つのコンポーネントから構成されています:(i) 顔提案コンポーネントは、3次元平均顔モデルに対する各予測キーポイントの位置と3次元変換(回転と並進)パラメータを推定することで、顔のバウンディングボックス提案を計算します。(ii) 顔検証コンポーネントは、キーポイントに基づく設定プーリングによって提案を剪定および精製し、検出結果を計算します。提案された方法は、最先端の汎用オブジェクト検出ConvNets(例:faster R-CNN)を顔検出に適応する際の2つの問題に対処しています:(i) 1つ目は、3次元平均顔モデルを利用することで、領域提案ネットワーク(RPN)における事前定義されたアンカーボックスのヒューリスティックな設計を排除することです。(ii) もう1つ目は、一般的なRoI(Region-of-Interest:関心領域)プーリング層を置き換え、対象物体の構造に従った設定プーリング層を使用することであります。多タスク損失関数は3つの項から構成されており、分類用のSoftmax損失と、顔キーポイントおよび顔バウンディングボックスの位置に関するsmooth l1損失[14]が含まれています。実験では、我々のConvNetはAFLWデータセットのみで訓練され、FDDBベンチマークでは微調整を行い、AWFベンチマークでは微調整なしでテストされました。提案された方法は両ベンチマークにおいて非常に競争力のある最先端の性能を得ています。