18日前

C-Fラベルおよび蒸留を用いた顔面表情表現の適応的学習

{Hangyu Li; Nannan Wang; Xinpeng Ding; Xi Yang; Xinbo Gao}
要約

顔面表情認識は、刑事捜査およびデジタルエンターテインメント分野において極めて重要な役割を果たしている。非制約条件下では、既存の表情データセットはクラスの偏りが顕著であり、表情間の類似度も非常に高い。従来の手法は、ネットワークの深さや幅を増大させることで表情認識性能を向上させる傾向にあり、これによりストレージおよび計算コストが増加するという課題があった。本論文では、クラスの偏りを解消しつつ、表情表現の判別力を高めるために、新たな適応型教師付き目的関数であるAdaReg損失を提案する。この手法は、カテゴリの重要度係数を再重み付けすることで、クラスバランスの問題に対応する。さらに、人間の認知メカニズムに着想を得て、容易な表現から困難な表現へと段階的に分類を進める「粗-細(Coarse-Fine, C-F)ラベル戦略」を新たに設計した。この戦略を基盤として、知識の転移を実現する新たな学習フレームワーク「感情教育メカニズム(Emotional Education Mechanism, EEM)」を提案する。EEMは、知識豊富な教師ネットワーク(Knowledgeable Teacher Network, KTN)と自己学習型の学生ネットワーク(Self-Taught Student Network, STSN)から構成される。具体的には、KTNは粗いストリームと細かいストリームの出力を統合し、容易な表現から困難な表現へと順次学習する。この事前学習済みのKTNおよび既存の学習経験を教師として用いることで、STSNは最大限の性能を発揮しつつ、元のKTNを圧縮することが可能となる。公開ベンチマークにおける広範な実験結果から、本手法は現在の最先端フレームワークと比較して優れた性能を示し、RAF-DBで88.07%、AffectNetで63.97%、FERPlusで90.49%の精度を達成した。