要約
近年、顔面感情認識(Facial Emotion Recognition, FER)は、バイオメトリクス、精神疾患の検出、人間行動の理解、心理的プロファイリングなど多岐にわたる応用が可能であるため、注目を集めている。しかし、感情間の一般化を実現する上で、複数の要因が障壁となっており、正確かつ頑健なFERパイプラインの開発は依然として課題である。その要因として、顔の姿勢の変化、顔面構造の異質性、照明条件の変動、部分的遮蔽、低解像度、加齢に伴う外見変化などが挙げられる。こうした課題を克服するために、ヒストグラム・オブ・オリエンテッド・グレーディエント(HOG)や局所バイナリパターン(LBP)ヒストグラムといった手法が提案されてきたが、これらは手動による特徴選択を必要とするという制約がある。これに対して、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)は、手動特徴選択の問題を克服した。CNNは、従来のFERモデルと比較して特徴抽出戦略に独自性を有しており、FERタスクにおける大きな可能性を示している。本研究では、視覚幾何グループ(Visual Geometry Group, VGG)層の間にU-Netによるセグメンテーション層を統合することで、新たなCNNアーキテクチャを提案する。この構造により、特徴マップからより重要な特徴を強調できるとともに、VGG層間での冗長情報の流れを制御することが可能となる。提案モデルは、FER-2013データセットにおいて、他の代表的なFERモデルと比較して、単一ネットワークとしての最先端(SOTA)の精度を達成した。