要約
近年、顔面表情認識(Facial Expression Recognition, FER)はコンピュータビジョン分野において大きな注目を集めている。本稿では、FERに特化して設計された新規なネットワーク「二方向注意混合特徴ネットワーク(Dual-Direction Attention Mixed Feature Network, DDAMFN)」を提案する。このネットワークは、高い頑健性と軽量性を両立しており、ネットワーク構造は主に2つのモジュールから構成されている。一つはバックボーンとして機能する「混合特徴ネットワーク(Mixed Feature Network, MFN)」であり、もう一つはヘッドとして機能する「二方向注意ネットワーク(Dual-Direction Attention Network, DDAN)」である。MFNの性能向上のため、複数のカーネルサイズを組み合わせて用いることで、より強固な特徴量を抽出する。さらに、入力画像の異なる領域に注目する複数のヘッドを持つ新しい「二方向注意(Dual-Direction Attention, DDA)」機構を提案し、これにより長距離依存関係を効果的に捉えることが可能となる。精度のさらなる向上を図るため、DDANに特化した新しいアテンション損失機構を導入した。複数の代表的な公開データセット(AffectNet、RAF-DB、FERPlus)を用いた実験評価の結果、従来のモデルと比較してDDAMFNが優れた性能を発揮することが確認され、本研究で提案するDDAMFNがFER分野における最先端(state-of-the-art)モデルであることが実証された。