18日前

自然環境下における顔の表情認識のための深層グローバルマルチスケールおよびローカルアテンション特徴の学習

{Shanmin Wang, Qingshan Liu, Zengqun Zhao}
要約

野外における顔の表情認識(FER)は、オクルージョン(遮蔽)およびポーズ変動という2つの主要な課題が存在するため、広く注目を集めている。本稿では、野外FER向けにグローバルマルチスケールかつローカルアテンション機構を組み込んだネットワーク(MA-Net)を提案する。具体的には、本ネットワークは、特徴事前抽出器、マルチスケールモジュール、およびローカルアテンションモジュールの3つの主要な構成要素から構成される。特徴事前抽出器は中間レベルの特徴を事前に抽出するために用いられ、マルチスケールモジュールは異なる受容 field を持つ特徴を融合することで、深層畳み込み層のオクルージョンやポーズ変動に対する感受性を低減する。一方、ローカルアテンションモジュールは、ネットワークが局所的な顕著な特徴に注目するように導くことで、オクルージョンや非正面ポーズによる干渉を軽減し、野外環境下でのFER性能を向上させる。多数の実験により、提案手法MA-NetがCAER-S、AffectNet-7、AffectNet-8、RAFDB、SFEWの複数の野外FERベンチマークにおいて、それぞれ88.42%、64.53%、60.29%、88.40%、59.40%の精度で最先端の性能を達成することが示された。