17日前

バッチ変換器:バッチ内の注目を検索する

Myung Beom Her, Jisu Jeong, Hojoon Song, Ji-Hyeong Han
バッチ変換器:バッチ内の注目を検索する
要約

顔面表情認識(Facial Expression Recognition: FER)は、コンピュータビジョン分野において、人間とコンピュータの相互作用など「リアルワールド(in-the-wild)」環境において注目を集めている。しかし、FER画像には、オクルージョン(被覆)、低解像度、姿勢の変化、照明の変動、および主観性といった不確実性が含まれており、これらはターゲットラベルと一致しない表情を含む場合がある。その結果、ノイズの多い単一画像からは有用な情報が得られにくく、信頼性も低下する。このような状況は、FERタスクの性能を著しく劣化させる要因となる。この問題に対処するため、本研究では、バッチ内の複数の画像から抽出された特徴に基づいて学習することで、単一画像からの情報に依存せず、信頼できる情報を抽出しつつノイズデータにおける過学習を防ぐためのバッチトランスフォーマー(Batch Transformer: BT)を提案する。具体的には、提案するクラスバッチアテンション(Class Batch Attention: CBA)モジュールを採用している。さらに、各レベル間の相関関係を捉えることで特定の特徴への過学習を防ぐため、マルチレベルアテンション(Multi-level Attention: MLA)も提案する。本論文では、上記の手法を統合したバッチトランスフォーマーネットワーク(Batch Transformer Network: BTN)を構築した。様々なFERベンチマークデータセットにおける実験結果から、提案するBTNが、FER分野における最先端手法を一貫して上回ることが示された。代表的な実験結果により、本手法がFER分野における有望なアプローチであることが確認された。

バッチ変換器:バッチ内の注目を検索する | 最新論文 | HyperAI超神経