17日前

視覚変換器を用いたポーカーフェースの生成による顔面表情からの感情の分離と認識

Jia Li, Jiantao Nie, Dan Guo, Richang Hong, Meng Wang
視覚変換器を用いたポーカーフェースの生成による顔面表情からの感情の分離と認識
要約

表情認識(FER)分野において、表現学習と特徴の分離(feature disentanglement)は、近年大きな研究関心を集めている。感情ラベルの本質的な曖昧さは、従来の教師あり表現学習手法に課題をもたらす。さらに、顔の表情画像から感情ラベルへの直接的なマッピングを学習する手法は、微細な顔面特徴を捉えるために明確な教師信号を欠いている。本論文では、これらの課題に対処するため、新たなFERモデル「Poker Face Vision Transformer(PF-ViT)」を提案する。PF-ViTは、対応するポーカーフェイス(感情のない顔)を生成することにより、静止した顔画像から感情の影響を受けない感情を分離・認識することを目指しており、ペア画像の必要がない。顔面動作コード体系(Facial Action Coding System)に着想を得て、表現豊かな顔を「感情のない顔(ポーカーフェイス)」上における一連の顔面筋の運動の重ね合わせと捉える。PF-ViTは、感情ラベルのない大規模な顔面表情データセット上で、マスク付き自己符号化器(Masked Autoencoders)として事前学習された単純なVision Transformerを用いる。これにより、優れた表現を獲得する。その後、GANフレームワークを用いてPF-ViTを訓練する。学習過程において、ポーカーフェイス生成という補助タスクが、感情成分と感情に依存しない成分の分離を促進し、FERモデルが包括的に判別性の高い顔面細部を捉えるよう導く。定量的および定性的な実験結果から、本手法の有効性が示され、4つの代表的なFERデータセットにおいて、既存の最先端手法を上回ることを確認した。