ローカル学習と深層特徴および手作り特徴を用いた表情認識

本稿では、畳み込みニューラルネットワーク(CNN)によって学習された自動特徴量と、ビジュアルワードの袋(Bag-of-Visual-Words: BOVW)モデルによって計算された手作業特徴量を組み合わせたアプローチを提案し、表情認識における最先端の結果を達成することを目指します。自動特徴量を得るために、複数のCNNアーキテクチャ、事前学習済みモデル、および学習手法(例:Dense-Sparse-Dense)を実験しました。これらの2種類の特徴量を融合した後、局所学習フレームワークを使用して各テスト画像のクラスラベルを予測します。局所学習フレームワークは3つのステップに基づいています。まず、k-最近傍法(k-nearest neighbors: k-NN)モデルが適用され、入力テスト画像に対して最も近い訓練サンプルを選択します。次に、選択された訓練サンプル上で一対多サポートベクターマシン(Support Vector Machine: SVM)分類器が訓練されます。最後に、このSVM分類器はその訓練に使用されたテスト画像のみのクラスラベルを予測するために使用されます。我々は以前の研究で局所学習と手作業特徴量を組み合わせて使用しましたが、深層特徴量と組み合わせて局所学習を使用した事例はこれまで報告されていません。2013年の表情認識チャレンジデータセット(Facial Expression Recognition Challenge 2013)、FER+データセット、およびAffectNetデータセットでの実験結果は、本アプローチが最先端の結果を達成していることを示しています。FER 2013では最上位精度75.42%、FER+では87.76%、AffectNet 8クラス分類では59.58%、AffectNet 7クラス分類では63.31%という結果を出し、すべてのデータセットにおいて既存の最先端手法を超える1%以上の性能向上を達成しました。