17日前

DAS：CNNにおける顕著な情報を捉えるための可変アテンション

Farzad Salajegheh, Nader Asadi, Soroush Saryazdi, Sudhir Mudur

要約

畳み込みニューラルネットワーク（CNN）は局所的な空間パターンの認識において優れた性能を発揮する。多くの視覚タスク、たとえば物体認識やセグメンテーションにおいて、CNNのカーネル境界外にも重要な情報が存在するが、CNNは受容fieldが限られているため、こうした関連情報を捉えきれないという課題がある。一方、自己注意機構（self-attention）はモデルがグローバルな情報をより効果的に利用できるようにするが、計算コストが大幅に増加するという問題がある。本研究では、関連する情報に注目を集中させることを可能にする、高速かつシンプルな完全畳み込み型手法であるDAS（Deformable Attention Sampling）を提案する。DASは、関連領域の位置を柔軟に捉えるための可変畳み込み（deformable convolutions）と、効率性を確保するための分離畳み込み（separable convolutions）を組み合わせている。DASは既存のCNNに容易に統合可能であり、ゲーティング機構を用いて関連情報を伝搬する。Transformer系の注意機構がO(n²)の計算量を要するのに対し、DASはO(n)の計算量で実現可能である。我々の主張は、DASが関連特徴に注目を強化できるという特性により、代表的なCNNアーキテクチャ（例：ResNet50）に追加することで、画像分類および物体検出の性能向上が達成できることである。例えば、Stanford Dogsデータセットでは4.47%、ImageNetでは1.91%、COCOのAPでは3.3%の性能向上が得られた。この成果は、同等またはより少ないFLOPsで他のCNN用の注意機構を上回っている。本研究の実装コードは公開予定である。