
顔の一部が隠れたり、姿勢が変化したりすることにより顔の外見が大きく変わるため、自動顔表情認識(Automatic Facial Expression Recognition: FER)において、これらの要因は主要な障壁となっています。過去数十年間、自動FERは大幅な進歩を遂げましたが、実世界の状況下での遮蔽に強い(occlusion-robust)および姿勢に依存しない(pose-invariant)FERの問題には比較的少ない注目が払われてきました。本論文では、実世界における姿勢と遮蔽に強いFERの問題に対処するために、以下の3つの貢献を行います。第一に、実世界の遮蔽や異なる姿勢下でのFER研究を促進するため、コミュニティ向けに手動アノテーション付きの野生環境での顔表情データセットを複数構築しました。第二に、遮蔽や異なる姿勢下でのFERにおいて顔領域の重要性を適応的に捉える新しい領域注意ネットワーク(Region Attention Network: RAN)を提案します。RANは、バックボーンとなる畳み込みニューラルネットワークによって生成された可変数の領域特徴量を集約し、埋め込んでコンパクトな固定長表現にまとめます。最後に、顔表情が主に顔動作単位(facial action units)によって定義されるという事実に基づいて、最も重要な領域に対する高い注意重みを促す領域バイアス損失(region biased loss)を提案します。我々は提案したRANと領域バイアス損失を自作のテストデータセットおよび4つの人気のあるデータセット(FERPlus, AffectNet, RAF-DB, SFEW)で検証しました。広範な実験結果から、我々のRANと領域バイアス損失は遮蔽や異なる姿勢がある場合でもFER性能を大幅に向上させることを示しています。また、本手法はFERPlus, AffectNet, RAF-DB, SFEWにおいて最先端の結果も達成しています。コードおよび収集したテストデータは公開予定です。