18日前

リジッドマスキングネットワークを用いた顔面表情認識

{Tuan Anh Tran, The Huynh Vu, Luan Pham}
要約

自動顔面表情認識(FER)は、人間-コンピュータインタラクションにおける応用が広がる中で、注目を集めている。FERの性能向上に向けたアプローチの一つとして、本研究では注目メカニズム(attention mechanism)を搭載した深層学習アーキテクチャに焦点を当てる。本研究では、CNNの顔面表情認識性能を向上させるための新しい「マスキングアイデア」を提案する。この手法は、セグメンテーションネットワークを用いて特徴マップを精緻化し、ネットワークが関連する情報を集中して処理できるようにすることで、正確な判断を可能にする。実験では、広く用いられている深層残差ネットワーク(Deep Residual Network)とUnet型アーキテクチャを統合し、Residual Masking Networkを構築した。提案手法は、代表的なFER2013データセットおよび独自のVEMOデータセットにおいて、現在の最先端(SOTA)水準の精度を達成した。