
要約
我々は、新たな顔の表情認識ネットワークである「Distract your Attention Network(DAN)」を提案する。本手法は、以下の2つの重要な観察に基づいている。第一に、複数のクラスは本質的に類似した顔貌の特徴を共有しており、その差異は微細であることがある。第二に、顔の表情は複数の顔領域において同時に現れ、局所的な特徴間の高次相互作用をエンコードする包括的なアプローチが必要となる。これらの課題に対処するため、本研究では以下の3つの主要構成要素を備えたDANを提案する:特徴クラスタリングネットワーク(FCN)、マルチヘッドクロスアテンションネットワーク(MAN)、アテンション統合ネットワーク(AFN)。FCNは、クラス間の分離性を最大化するための大マージン学習目的を採用することで、頑健な特徴を抽出する。さらにMANは、複数の顔領域に同時に注目する複数のアテンションヘッドを実装し、各領域にアテンションマップを構築する。さらにAFNは、アテンションマップを統合する前に、これらの注目領域を複数の位置へと「分散(distract)」させることで、より包括的なアテンションマップを生成する。AffectNet、RAF-DB、SFEW 2.0の3つの公開データセットにおける広範な実験により、本手法が一貫して最先端の表情認識性能を達成することが確認された。コードは https://github.com/yaoing/DAN にて公開される予定である。