17日前
視覚Transformerを圧縮および励起を用いて学習する顔認識表情認識
Mouath Aouayeb, Wassim Hamidouche, Catherine Soladie, Kidiyo Kpalma, Renaud Seguier

要約
ここ数十年の間に、さまざまな表情データベースが公開されたことにより、顔面表情認識(Facial Expression Recognition: FER)タスクは大きな注目を集めるようになった。利用可能なデータベースが多様なソースから構成されているため、顔認識タスクにはいくつかの課題が生じている。これらの課題は通常、畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)アーキテクチャによって解決されてきた。一方で、近年、アテンション機構に基づくTransformerモデルが視覚タスクに対応する手法として提案されている。しかし、Transformerモデルの主な課題の一つは、大規模な学習データを必要とすることであり、他の視覚アプリケーションと比較して、FER用のデータベースは規模が限定的である。この問題に対処するために、本稿では、顔面表情認識タスクにおいて、視覚TransformerとSqueeze and Excitation(SE)ブロックを共同で学習する手法を提案する。提案手法は、CK+、JAFFE、RAF-DB、SFEWなど、複数の公開されているFERデータベース上で評価された。実験の結果、本モデルはCK+およびSFEWにおいて、既存の最先端手法を上回る性能を達成し、JAFFEおよびRAF-DBでも競争力のある結果を示した。