2ヶ月前

ピーク誘導型深層ネットワークを用いた表情認識

Xiangyun Zhao; Xiaodan Liang; Luoqi Liu; Teng Li; Yugang Han; Nuno Vasconcelos; Shuicheng Yan
ピーク誘導型深層ネットワークを用いた表情認識
要約

顔認識に関連するタスク(例:表情認識(Facial Expression Recognition: FER))の深層ネットワークの学習における目的関数は、通常、各サンプルを独立に考慮します。本研究では、同一の種類および同一の被験者から得られた非ピーク表現(難しいサンプル)の中間特徴応答を、ピーク表現(簡単なサンプル)を持つサンプルを使用して監督する新しいピーク誘導型深層ネットワーク(Peak-Piloted Deep Network: PPDN)を提案します。これにより、非ピーク表現からピーク表現への変化過程がネットワークに暗黙的に埋め込まれ、表情強度に対する不変性が達成されます。また、ネットワークの学習のために特別な逆伝播手順であるピーク勾配抑制(Peak Gradient Suppression: PGS)を提案しています。この手法は、非ピーク表現サンプルの中間層特徴応答を対応するピーク表現サンプルの中間層特徴応答に向かわせますが、その逆方向には移動させません。これにより、非ピーク表現サンプルからの干渉によってピーク表現サンプルの認識能力が低下することを防ぎます。Oulu-CASIA および CK+ という2つの一般的なFERデータセットでの広範な比較実験により、PPDNが最先端のFER手法よりも優れていることが示されました。さらに、ネットワーク構造と最適化戦略双方の利点も確認されています。また、PPDNは適切なピークおよび非ピークサンプルの定義によって他のタスクにも拡張可能な汎用アーキテクチャであることが示されています。これは、Multi-PIE データセットを使用した実験で姿勢不変性顔認識において最先端の性能を達成していることからも検証されています。

ピーク誘導型深層ネットワークを用いた表情認識 | 最新論文 | HyperAI超神経