
要約
注目メカニズム、特に自己注意(self-attention)は、視覚タスクにおける深層特徴表現においてますます重要な役割を果たしている。自己注意は、単一のサンプル内における長距離依存関係を捉えるために、すべての位置間のペアワイズ類似度を用いて特徴の重み付き和を計算し、各位置の特徴を更新する。しかし、自己注意は計算量が二次関数的(quadratic)であり、異なるサンプル間の潜在的な相関を無視するという課題を抱えている。本論文では、二つの外部的で小型、学習可能、共有可能なメモリに基づく、新たな注目メカニズム「外部注意(external attention)」を提案する。このメカニズムは、単に二つの直列接続された線形層と二つの正規化層を用いることで容易に実装可能であり、既存の人気あるアーキテクチャにおける自己注意の直接的な置き換えが可能である。外部注意は線形の計算量を有し、すべてのデータサンプル間の相関関係を暗黙的に考慮する。さらに、多頭(multi-head)機構を外部注意に組み込むことで、画像分類に適した完全なMLP(多層パーセプトロン)アーキテクチャ、すなわち「外部注意MLP(EAMLP)」を構築した。画像分類、物体検出、セマンティックセグメンテーション、インスタンスセグメンテーション、画像生成、点群解析という複数のタスクにおける広範な実験結果から、本手法は自己注意およびそのいくつかの変種と同等または優れた性能を示す一方で、はるかに低い計算コストとメモリ消費量を実現していることが明らかになった。