6ヶ月前

概要

顔面表情認識（Facial Expression Recognition, FER）は、人間-コンピュータインタラクションをはじめとする多様な実世界応用において重要な役割を果たしている。POSTERは、二ストリームのピラミッドクロスフェュージョン構造を用いて顔ランドマーク情報と画像特徴を効果的に統合することで、FER分野において最先端（SOTA）の性能を達成している。しかしながら、POSTERのアーキテクチャは明らかに複雑であり、計算コストが高くなるという課題を抱えている。本論文では、この計算負荷の軽減を目的として、POSTER++を提案する。POSTER++は、クロスフェュージョン、二ストリーム構造、マルチスケール特徴抽出の3つの観点からPOSTERを改善している。まず、クロスフェュージョンにおいて、従来のクロスアテンション機構の代わりにウィンドウベースのクロスアテンション機構を採用している。次に、二ストリーム設計から画像→ランドマークのパスを削除し、構造を簡素化している。さらに、マルチスケール特徴抽出においては、POSTERのピラミッド構造を廃止し、画像とランドマークのマルチスケール特徴を統合する新しいアプローチを導入している。複数の標準データセットを用いた広範な実験の結果、POSTER++は最小限の計算コストでSOTAのFER性能を達成した。具体的には、RAF-DBでは92.21%、AffectNet（7クラス）では67.49%、AffectNet（8クラス）では63.77%の精度を達成し、わずか8.4Gの浮動小数点演算（FLOPs）と43.7Mのパラメータ（Param）で実現した。これらの結果は、本研究における改善策の有効性を強く示している。

ソースPDF