注目プーリングを備えたビジョン変換器によるロバストな顔認識表情認識

野生環境下における顔面表情認識(Facial Expression Recognition, FER)は極めて困難なタスクである。近年、いくつかの視覚変換器(Vision Transformer, ViT)がFERに適用されつつあるが、その多くは畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)と比較して性能が劣っている。この原因は、新たな提案モジュールが誘導的バイアス(inductive bias)に欠けているため、初期から十分に収束しにくく、またオクルージョンやノイズの多い領域に過度に注目しやすいことにある。代表的なTransformerベースのFER手法であるTransFERは、マルチブランチアテンションドロップを用いてこの問題を緩和しているが、その代わりに過度な計算負荷を伴う。一方、本研究では、ノイズを含む特徴を直接プーリングするための2つの注目プーリング(Attentive Pooling, AP)モジュールを提案する。これらのAPモジュールは、アテンティブパッチプーリング(Attentive Patch Pooling, APP)とアテンティブトークンプーリング(Attentive Token Pooling, ATP)から構成される。これらは、モデルが最も判別力のある特徴に注目するよう導く一方で、関連性の低い特徴の影響を低減することを目的としている。提案するAPPはCNN特徴から最も情報量の高いパッチを選択し、ATPはViTにおける重要性の低いトークンを排除する。これらのモジュールは実装が単純で学習可能なパラメータを一切持たないため、直感的に計算コストを削減しつつ、最も判別力の高い特徴にのみ注目するというシンプルな戦略により性能の向上を実現している。定性的な結果から、本手法の動機付けと有効性が示された。さらに、6つの野生環境下データセットにおける定量的評価では、他の最先端手法を上回る性能を達成した。