
要約
野生環境下における顔面表情認識(Facial Expression Recognition: FER)のための判別性特徴の学習は、クラス内変動が大きく、クラス間の類似性が高いことから、畳み込みニューラルネットワーク(Convolutional Neural Networks: CNNs)を用いても容易ではない。近年、深層マトリクス学習(Deep Metric Learning: DML)アプローチとして、センター損失(center loss)およびその変種をソフトマックス損失と共同最適化する手法が、多くのFER手法で採用されており、埋め込み空間における特徴の判別力を強化している。しかし、マトリクス学習手法によってすべての特徴を均等に監視すると、関連のない特徴が混入する可能性があり、最終的に学習アルゴリズムの汎化能力を低下させるおそれがある。本研究では、判別性を向上させるために、重要な特徴要素のサブセットを適応的に選択する深層アテンションセンター損失(Deep Attentive Center Loss: DACL)を提案する。提案手法は、CNNの中間空間特徴マップをコンテキストとして用い、特徴の重要度と相関するアテンション重みを推定するアテンション機構を統合している。推定された重みは、センター損失のスパースな定式化を活用し、埋め込み空間における関連情報について、クラス内凝集性を高めつつクラス間分離性を確保する。本研究では、広く用いられている2つの野生環境下FERデータセットを用いた包括的な実験により、提案手法のDACLが最先端手法に対して優れた性能を発揮することを示した。