
要約
3D顔アバターがコミュニケーションにますます広く利用される中で、感情を忠実に表現することが極めて重要である。しかし、単眼画像からパラメトリック3D顔モデルを回帰する最近の最先端手法は、微細な感情や極端な感情を含む顔の表情の全範囲を捉えることができないという課題がある。本研究では、訓練に用いられる従来の再構成評価指標(顔面特徴点再投影誤差、光度誤差、顔認識損失)が、高精細な表情を適切に捉えるには不十分であることを明らかにした。その結果、入力画像に含まれる感情内容と一致しない顔の幾何構造が再構成されることが生じる。これを解決するために、我々はEMOCA(EMOtion Capture and Animation)を提案する。この手法では、訓練中に新たな深層的知覚的「感情一貫性損失(deep perceptual emotion consistency loss)」を導入することで、再構成された3D表情が入力画像に描かれた表情と一致することを保証する。EMOCAは現在の最良手法と同等の3D再構成誤差を達成しつつ、再構成表情の質および認識される感情内容の面で顕著に優れている。さらに、推定された3D顔パラメータから、感情の価値(valence)と覚醒度(arousal)のレベルを直接回帰し、基本的な感情を分類する。野生環境下(in-the-wild)での感情認識タスクにおいて、本研究の純粋な幾何学的アプローチは、最良の画像ベース手法と同等の性能を達成しており、人間行動分析において3D幾何構造の価値を強調している。本モデルおよびコードは、https://emoca.is.tue.mpg.de にて公開されている。