17日前
関係性自己注意機構:動画理解における注意機構に欠けているもの
Manjin Kim, Heeseung Kwon, Chunyu Wang, Suha Kwak, Minsu Cho

要約
畳み込みは、現代のニューラルネットワークにおいて arguably 最も重要な特徴変換であり、ディープラーニングの進展に貢献してきました。近年、畳み込み層を自己注意(self-attention)ブロックに置き換えるTransformerネットワークの登場により、定常的な畳み込みカーネルの限界が明らかになり、動的特徴変換の時代へと移行する契機が生まれました。しかし、既存の動的変換手法、例えば自己注意機構は、空間的・時間的対応関係(すなわち運動情報)が有効な表現に不可欠である動画理解の文脈において、依然として制限を抱えています。本研究では、動的に関係性カーネルを生成し、関係性コンテキストを統合することで、動画に内在する豊かな時空間的関係構造を活用する、関係性特徴変換としての「関係性自己注意(Relational Self-Attention: RSA)」を提案します。実験およびアブレーションスタディの結果、RSAネットワークは畳み込みおよび自己注意機構を大きく上回り、Something-Something-V1 & V2、Diving48、FineGymといった標準的な運動中心の動画行動認識ベンチマークにおいて、最先端の性能を達成しました。