2ヶ月前
ExpNet: ランドマークフリー、深層学習、3D顔表情
Chang, Feng-Ju ; Tran, Anh Tuan ; Hassner, Tal ; Masi, Iacopo ; Nevatia, Ram ; Medioni, Gerard

要約
3D顔表情係数の推定に深層学習を用いた手法について説明します。従来の手法とは異なり、当手法では顔ランドマーク検出方法を中間ステップとして利用しません。最近の研究では、CNN(畳み込みニューラルネットワーク)が画像強度から直接正確かつ識別可能な3D変形モデル(3DMM)表現を回帰するための訓練が可能であることが示されています。顔ランドマーク検出を省略することで、これらの手法は、これまでにない野外環境での被覆された顔形状の推定を可能にしました。私たちはこれらの手法に基づいて、堅牢で深層なランドマークフリーのアプローチによって顔表情も推定可能であることを示します。私たちが提案するExpNet CNNは、顔画像の強度値に直接適用され、29次元の3D表情係数ベクトルを回帰します。このネットワークを訓練するために使用するデータ収集方法について独自の手法を提案しています。深層ネットワークが訓練ラベルノイズに対して堅牢であることを利用しています。さらに、推定された表情係数の精度評価のために新しい手段を提供します:CK+およびEmotiW-17感情認識ベンチマークにおいて、どれだけ顔感情を捉えているかを測定することです。実験結果から、私たちのExpNetが最先端の顔ランドマーク検出技術よりも優れた表情係数を生成し、それらが顔感情間での識別性能が高いことを示しています。また、画像スケールが低下するにつれてこの優位性が増大することから、ExpNetはランドマーク検出方法よりもスケール変化に対してより堅牢であることがわかります。最後に、同等の精度レベルで比較した場合、ExpNetは代替手法よりも桁違いに高速であることが確認されました。