17日前

顔面表情認識のための局所的マルチヘッドチャネル自己注意機構

Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo

要約

2017年にTransformerアーキテクチャが導入されて以来、コンピュータビジョン分野における自己注意（self-attention）パラダイムの導入をめざした試みが多数行われてきた。本論文では、ほぼすべての畳み込みニューラルネットワーク（CNN）に容易に統合可能であり、コンピュータビジョンに特化して設計された新たな自己注意モジュール、LHC（Local (multi) Head Channel self-attention）を提案する。LHCの設計には2つの核心的なアイデアがある。第一に、コンピュータビジョンにおいて自己注意を効果的に活用する最適なアプローチは、空間的注意（spatial attention）よりもチャネルごとの注意（channel-wise attention）の適用であり、畳み込み演算がNLPにおける再帰型ネットワークが置き換えられたように、自己注意モジュールによって完全に置き換えられるべきではないと考える。第二に、グローバルな注意よりも局所的なアプローチの方が、畳み込み演算の制約をより効果的に克服する可能性がある。本研究で開発したLHC-Netを用いることで、有名なFER2013データセットにおいて、従来の最先端（SOTA）手法と比較して、はるかに低い計算コストと「主となる」アーキテクチャへの影響で、新たな最先端の性能を達成した。