6ヶ月前

概要

顔面表情の自動分析に関する研究は、主に7つの基本的顔面表情の認識に焦点を当てている。しかし、複合表情（compound expressions）はより多様であり、日常における感情表現の複雑さと繊細さをより正確に反映している。複合表情認識（CER: Compound Expression Recognition）に関する研究は、現存するデータベースが少数であり、かつ小規模、実験室内制御下、不均衡、静止画像に限定されているため、限られたものにとどまっている。本研究では、野外環境（in-the-wild）における音声・映像データを含む新たなCERデータベース「C-EXPR-DB」を提示する。このデータベースは、200,000フレームに及ぶ400本の動画から構成され、13種類の複合表情、感情の評価値（valence-arousal）、行動単位（Action Units, AUs）、発話内容、顔面ランドマークおよび属性といった多様なラベルが付与されている。さらに、CERとAU検出（AU-D）を同時に行うマルチタスク学習（MTL）手法「C-EXPR-NET」を提案する。AU-Dタスクは、CERの性能向上を目的として導入されている。AU-Dでは、視覚情報に加え、AUsの意味的記述（semantic description）を組み込む。CERでは、マルチラベル形式とKLダイバージェンス損失関数を採用している。また、CERとAU-Dのタスク間の相互強化を図るため、分布マッチング損失（distribution matching loss）を提案し、負の転移（negative transfer：マルチタスクモデルの性能が、少なくとも1つの単一タスクモデルよりも劣化する現象）を軽減する効果を発揮する。広範な実験により、C-EXPR-NETの優れた性能が示され、理論的な主張の妥当性が検証された。さらに、C-EXPR-NETは新たな感情認識環境においてゼロショット（zero-shot）で知識を効果的に一般化できることも明らかになった。

ソースPDF