DAS:CNNにおける顕著な情報を捉えるための可変アテンション

畳み込みニューラルネットワーク(CNN)は局所的な空間パターンの認識において優れた性能を発揮する。多くの視覚タスク、たとえば物体認識やセグメンテーションにおいて、CNNのカーネル境界外にも重要な情報が存在するが、CNNは受容fieldが限られているため、こうした関連情報を捉えきれないという課題がある。一方、自己注意機構(self-attention)はモデルがグローバルな情報をより効果的に利用できるようにするが、計算コストが大幅に増加するという問題がある。本研究では、関連する情報に注目を集中させることを可能にする、高速かつシンプルな完全畳み込み型手法であるDAS(Deformable Attention Sampling)を提案する。DASは、関連領域の位置を柔軟に捉えるための可変畳み込み(deformable convolutions)と、効率性を確保するための分離畳み込み(separable convolutions)を組み合わせている。DASは既存のCNNに容易に統合可能であり、ゲーティング機構を用いて関連情報を伝搬する。Transformer系の注意機構がO(n²)の計算量を要するのに対し、DASはO(n)の計算量で実現可能である。我々の主張は、DASが関連特徴に注目を強化できるという特性により、代表的なCNNアーキテクチャ(例:ResNet50)に追加することで、画像分類および物体検出の性能向上が達成できることである。例えば、Stanford Dogsデータセットでは4.47%、ImageNetでは1.91%、COCOのAPでは3.3%の性能向上が得られた。この成果は、同等またはより少ないFLOPsで他のCNN用の注意機構を上回っている。本研究の実装コードは公開予定である。