17日前

静的から動的へ:動的な映像における顔面表情認識に向けたランドマーク認識型画像モデルの適応

Yin Chen, Jia Li, Shiguang Shan, Meng Wang, Richang Hong
静的から動的へ:動的な映像における顔面表情認識に向けたランドマーク認識型画像モデルの適応
要約

野外における動的顔面表情認識(DFER)は、依然としてデータの制約によって阻害されており、特に姿勢、被遮蔽、照明条件の不足や多様性の欠如、さらには顔面表情自体の本質的な曖昧さが課題となっている。これに対して、静的顔面表情認識(SFER)は現在、はるかに高い性能を示しており、質の高い訓練データが豊富に利用可能であるため、その恩恵を受けている。さらに、DFERにおける外見特徴と動的依存関係は、依然として十分に解明されていない。こうした課題に対処するため、本研究では、既存のSFERの知識と、抽出された顔ランドマークに依存する特徴に暗黙的に符号化された動的情報を活用する新たな「静的から動的へ」モデル(S2D)を提案する。まず、標準的なビジョン変換器(ViT)とマルチビュー補完プロンプター(MCPs)のみを用いたSFER用の画像モデルを構築・訓練する。その後、この画像モデルに時系列モデリングアダプター(TMAs)を挿入することで、DFER用の動画モデル(すなわちS2D)を構築する。MCPsは、市販の顔ランドマーク検出器によって推定されたランドマークに依存する特徴を用いて、顔面表情特徴を強化する。一方、TMAsは顔面表情の動的変化の関係を捉え、モデル化することで、事前学習済みの画像モデルを動画処理に効果的に拡張する。特に、MCPsとTMAsは元の画像モデルに対してわずかに10%未満の追加学習可能パラメータしか増加させない。さらに、曖昧な感情ラベルの悪影響を低減するため、各感情カテゴリに対する参照サンプル(感情アンカー)を用いた新しい自己蒸留損失(Self-Distillation Loss)を提案する。これにより、S2Dの性能がさらに向上する。代表的なSFERおよびDFERデータセットにおける実験結果から、本手法が最先端の性能を達成することが示された。

静的から動的へ:動的な映像における顔面表情認識に向けたランドマーク認識型画像モデルの適応 | 最新論文 | HyperAI超神経