
要約
顔表情を異なるカテゴリに分類するには、顔のランドマークの局所的な歪みを捉える必要があります。私たちは、共分散などの二次統計量が、このような局所的な顔特徴の歪みをよりよく捉えることができると考えています。本研究では、共分散プーリングのために多様体ネットワーク構造を使用することによる利点を探り、顔表情認識の精度向上を目指します。特に、個々の画像特徴マップ内の空間プーリングを行うために、伝統的な畳み込みネットワークと組み合わせて多様体ネットワークを用いることを端から端まで深層学習の手法で実現しました。これにより、Static Facial Expressions in the Wild (SFEW 2.0) の検証セットでの認識精度は58.14%、Real-World Affective Faces (RAF) データベースの検証セットでは87.0%を達成しました。これらの結果は、私たちが知る限り最高の結果です。さらに、動画に基づく顔表情認識において、フレームごとの特徴量の時間的進化を捉えるために共分散プーリングを利用しています。報告された結果は、設計した共分散プーリング用の多様体ネットワークを畳み込みネットワーク層の上に積み重ねることによって、画像集合特徴量を時間的にプーリングすることが有効であることを示しています。