
要約
顔面感情認識(Facial Emotion Recognition, FER)は、臨床現場や行動記述などの人間-コンピュータインタラクションにおいて重要な役割を果たしている。人間の顔には個体差が大きく、さらに表情の姿勢や照明条件などの画像変動が存在するため、コンピュータモデルによる正確かつ堅牢なFERは依然として課題である。FERの手法の中でも、特に畳み込みニューラルネットワーク(Convolutional Neural Networks, CNNs)を用いた深層学習モデルは、自動特徴抽出能力の高さと計算効率の良さから、大きな潜在能力を示している。本研究では、FER2013データセットにおいて、単一ネットワークとして最高の分類精度を達成した。具体的には、VGGNetアーキテクチャを採用し、ハイパーパラメータをきめ細かく最適化するとともに、さまざまな最適化手法を比較検証した。これまでの報告を踏まえても、本研究のモデルは追加の学習データを用いずに、FER2013データセット上で73.28%という最先端の単一ネットワーク精度を達成した。