17日前

顔面表情認識のための局所的マルチヘッドチャネル自己注意機構

Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo
顔面表情認識のための局所的マルチヘッドチャネル自己注意機構
要約

2017年にTransformerアーキテクチャが導入されて以来、コンピュータビジョン分野における自己注意(self-attention)パラダイムの導入をめざした試みが多数行われてきた。本論文では、ほぼすべての畳み込みニューラルネットワーク(CNN)に容易に統合可能であり、コンピュータビジョンに特化して設計された新たな自己注意モジュール、LHC(Local (multi) Head Channel self-attention)を提案する。LHCの設計には2つの核心的なアイデアがある。第一に、コンピュータビジョンにおいて自己注意を効果的に活用する最適なアプローチは、空間的注意(spatial attention)よりもチャネルごとの注意(channel-wise attention)の適用であり、畳み込み演算がNLPにおける再帰型ネットワークが置き換えられたように、自己注意モジュールによって完全に置き換えられるべきではないと考える。第二に、グローバルな注意よりも局所的なアプローチの方が、畳み込み演算の制約をより効果的に克服する可能性がある。本研究で開発したLHC-Netを用いることで、有名なFER2013データセットにおいて、従来の最先端(SOTA)手法と比較して、はるかに低い計算コストと「主となる」アーキテクチャへの影響で、新たな最先端の性能を達成した。

顔面表情認識のための局所的マルチヘッドチャネル自己注意機構 | 最新論文 | HyperAI超神経