3ヶ月前

複数者間会話における感情認識のための顔面表情認識型マルチモーダルマルチタスク学習フレームワーク

{Shijin Wang, Rui Xia, Jianfei Yu, Wenjie Zheng}
複数者間会話における感情認識のための顔面表情認識型マルチモーダルマルチタスク学習フレームワーク
要約

複数者間会話におけるマルチモーダル感情認識(MERMC)は近年、注目を集めている。複数者間会話における視覚的シーンの複雑さを踏まえ、これまでの多数のMERMC研究は主にテキストおよび音声モダリティに注目し、視覚情報の活用を軽視してきた。近年、いくつかの研究が顔の時系列データを視覚特徴として抽出する手法を提案し、視覚情報がMERMCにおいて重要な役割を果たすことを示している。しかし、従来の手法によって抽出される顔の時系列は、発話者本人の顔だけでなく、複数人の顔を含む可能性があり、これにより実際の発話者の感情推定にノイズが混入するという問題が生じる。この課題に対処するため、本研究では「顔表情認識を意識したマルチモーダル多タスク学習(FacialMMT)」と名付けた2段階フレームワークを提案する。具体的には、各発話における実際の発話者に対応する顔の時系列を抽出するためのパイプライン手法を設計し、マルチモーダル顔認識、非教師あり顔クラスタリング、顔マッチングの各プロセスを組み合わせている。得られた顔の時系列をもとに、フレームレベルでの顔表情分布を活用するマルチモーダル顔表情認識モデルを構築し、多タスク学習に基づいて発話レベルの感情認識を向上させる。実験の結果、ベンチマークデータセットMELD上で提案するFacialMMTフレームワークの有効性が確認された。実装コードは公開されており、GitHubにて提供されている(https://github.com/NUSTM/FacialMMT)。