
要約
本稿では、マージンのないクロップド顔画像上で学習された、顔認識および顔貌属性(年齢、性別、人種)分類を目的とした軽量畳み込みニューラルネットワーク(CNN)のマルチタスク学習について検討する。本研究では、顔の感情を予測するためには、これらのネットワークに対して微調整(fine-tuning)を行う必要があることが示された。MobileNet、EfficientNet、RexNetアーキテクチャに基づく複数のモデルを提案する。実験により、提案モデルはAffectNetデータセットにおいて最先端の感情分類精度を達成しており、UTKFaceデータセットにおける年齢、性別、人種認識においてもほぼ最先端の性能を示すことが実証された。さらに、本研究で開発したニューラルネットワークを動画フレーム内の顔領域の特徴抽出器として用い、複数の統計関数(平均値、最大値など)を連結することで、EmotiWチャレンジのAFEWおよびVGAFデータセットにおいて、従来の最先端単一モデルよりも4.5%高い精度が達成されることを示した。