
要約
畳み込み(Convolution)と自己注意機構(self-attention)は、深層ニューラルネットワークにおける2つの基本的な構成要素として機能しており、前者は線形な方法で局所的な画像特徴を抽出するのに対し、後者は非局所的に高次の文脈的関係を符号化する。これらは本質的に補完的であり(一階/高階の特徴抽出)、最先端のアーキテクチャであるCNNやTransformerは、その計算パターンの非均一性および視覚タスクにおけるグローバルなドット積計算の過大な負荷により、単一の計算モジュール内で両者を一貫した枠組みで同時に適用するための理論的根拠を欠いている。本研究では、自己注意機構を変換された特徴量に対する畳み込み操作によって近似するという、グローバル自己注意機構の近似スキームを理論的に導出する。この近似スキームを基盤として、畳み込みと自己注意機構の両方を含むマルチブランチ型の基本モジュールを構築し、局所的および非局所的特徴相互作用を統合可能な構造を実現する。重要な点として、学習を終えた後、構造的再パラメータ化によりこのマルチブランチモジュールを条件付きで単一の標準的な畳み込み演算に変換可能であり、これにより「X-volution」と呼ばれる純粋な畳み込み形式の演算子が得られる。このX-volutionは、現代のあらゆるネットワークに原子的演算子として容易に組み込むことが可能である。広範な実験により、提案するX-volutionが、画像認識(ImageNet分類でトップ1精度+1.2%)、物体検出およびセグメンテーション(COCOでボックスAP +1.7、マスクAP +1.5)において、非常に競争力のある視覚理解性能向上を達成することが示された。