2ヶ月前

MTCAE-DFER: 多タスク連続オートエンコーダーによる動的顔表情認識

Xiang, Peihao ; Wu, Kaida ; Lin, Chaohao ; Bai, Ou
MTCAE-DFER: 多タスク連続オートエンコーダーによる動的顔表情認識
要約

本論文は、動的顔表情認識のための自己符号化器ベースの多タスク学習(Multi-Task Learning, MTL)フレームワークにおけるカスケードネットワークブランチを拡張し、特に動的顔表情認識用の多タスクカスケード自己符号化器(Multi-Task Cascaded Autoencoder for Dynamic Facial Expression Recognition, MTCAE-DFER)について述べています。MTCAE-DFERは、ビジョントランスフォーマー(Vision Transformer, ViT)アーキテクチャに基づくプラグアンドプレイ型のカスケードデコーダモジュールを構築しており、トランスフォーマーのデコーダ概念を利用してマルチヘッドアテンションモジュールを再構成しています。前タスクからのデコーダ出力がクエリ(Q)として使用され、局所的な動的特徴を表します。一方、ビデオマスク付き自己符号化器(Video Masked Autoencoder, VideoMAE)共有エンコーダ出力がキー(K)とバリュー(V)として機能し、全体的な動的特徴を表します。この設定により、関連するタスク間での全体的な動的特徴と局所的な動的特徴との相互作用が促進されます。さらに、本提案では複雑な大規模モデルの過学習を軽減することを目指しています。自己符号化器ベースの多タスクカスケード学習手法を利用し、動的顔検出と動的顔ランドマークが動的顔表情認識に及ぼす影響を探ることで、モデルの汎化能力が向上します。我々は様々な公開データセット上で動的顔表情認識に関する広範な削除実験と最先端技術(State-of-the-Art, SOTA)との比較を行った結果、MTCAE-DFERモデルの堅牢性および関連するタスク間での全体的な局所的な動的特徴相互作用の有効性が証明されました。