ELSA:視覚Transformerにおける拡張局所自己注意機構

自己注意(self-attention)は長距離依存関係のモデリングにおいて強力であるが、局所的な細粒度特徴学習においては弱い。局所自己注意(Local Self-Attention, LSA)の性能は畳み込み(convolution)と同等にとどまり、動的フィルタ(dynamic filters)に劣るという状況は、研究者たちにとって「LSAを採用すべきか、それとも他の手法を用いるべきか」「どちらが優れているのか」「なぜLSAは中程度の性能にとどまるのか」といった疑問を生じさせている。これらの疑問を解消するために、我々は「チャネル設定」と「空間処理」という二つの観点から、LSAおよびその類似手法を包括的に調査した。その結果、空間注意の生成と適用に問題の本質があることが明らかになった。特に、相対位置埋め込み(relative position embeddings)と隣接フィルタの適用が重要な要因であることが判明した。これらの知見をもとに、ハダマール注意(Hadamard attention)とゴーストヘッド(ghost head)を導入した強化局所自己注意(Enhanced Local Self-Attention, ELSA)を提案する。ハダマール注意は、隣接領域における注意の効率的な生成を可能にしつつ、高次元マッピングを維持する。一方、ゴーストヘッドは注意マップと静的行列を組み合わせることでチャネル容量を拡張する。実験により、ELSAの有効性が実証された。アーキテクチャやハイパーパラメータの変更なしに、LSAをELSAに即座に置き換えるだけで、Swin Transformer(Swin)のトップ1精度が最大+1.4向上した。また、VOLO(D1~D5)においても一貫して性能向上が見られ、ELSA-VOLO-D5は追加の学習画像を用いずにImageNet-1Kで87.2の精度を達成した。さらに、下流タスクにおける評価でも、ELSAは顕著な性能向上を示した。COCOではボックスAPが最大+1.9、マスクAPが最大+1.3向上し、ADE20KではmIoUが最大+1.9向上した。コードは以下のURLから公開されている:\url{https://github.com/damo-cv/ELSA}。