
要約
ドット積注意機構は、コンピュータビジョンと自然言語処理において広範な応用を持っています。しかし、そのメモリコストと計算コストは入力サイズの二乗に比例して増大します。このような増大は、高解像度入力での応用を妨げています。この問題を解決するために、本論文ではドット積注意機構と同等であるが、大幅に少ないメモリコストと計算コストを持つ新しい効率的な注意機構を提案します。このリソース効率性により、注意モジュールをネットワークにより広範かつ柔軟に統合することが可能になり、精度の向上につながります。実証評価により、その優位性の有効性が示されました。効率的な注意モジュールは、MS-COCO 2017データセットでの物体検出器とインスタンスセグメンテーション器の性能を大幅に向上させました。さらに、リソース効率性は複雑なモデルでもドット積注意機構を使用することができなかった場面で注意機構の利用を民主化します。一例として、Scene Flowデータセットでのステレオ深度推定において、効率的な注意機構を持つモデルが最先端の精度を達成しました。コードはhttps://github.com/cmsflash/efficient-attentionで入手可能です。