17日前

RAMS-Trans:細粒度画像認識のための再帰的アテンションマルチスケールTransformer

Yunqing Hu, Xuan Jin, Yin Zhang, Haiwen Hong, Jingfeng Zhang, Yuan He, Hui Xue
RAMS-Trans:細粒度画像認識のための再帰的アテンションマルチスケールTransformer
要約

細粒度画像認識(FGIR)において、領域の注目領域の局所化と強調は重要な要素であり、従来の畳み込みニューラルネットワーク(CNN)に基づく手法によって広く研究されてきた。近年開発されたビジョン変換器(ViT)は、コンピュータビジョンタスクにおいて有望な成果を上げている。CNNと比較して、画像のシーケンス化という新たなアプローチを採用しているが、固定されたパッチサイズのため受容 field のサイズが制限されており、CNNに見られるような局所的注目メカニズムを欠いており、多スケール特徴の生成が困難である。そのため、判別性のある領域注目を学習する能力に制約がある。本研究では、ボックスや部位のアノテーションを必要とせずに、判別性のある領域注目を学習するため、ViTに内在する注目重みの強さを、元画像に対応するパッチトークンの重要性を測定する指標として活用する。そこで、Transformerの自己注意機構を用いて多スケールで再帰的に判別性のある領域注目を学習する「再帰的注目多スケール変換器(RAMS-Trans)」を提案する。本手法の核となるのは、動的パッチ提案モジュール(DPPM)を用いた領域強調による多スケール画像パッチの統合である。DPPMはフルサイズの画像パッチから開始し、各スケールで生成される注目重みの強度を指標として、グローバルからローカルへと段階的に領域注目を拡大しながら、新たなパッチを生成する。提案手法はViTに内蔵される注目重みのみを用いるため、エンドツーエンドでの容易な訓練が可能である。広範な実験により、RAMS-Transは同時期の手法および効率的なCNNモデルを上回る性能を発揮し、3つのベンチマークデータセットにおいて最先端の結果を達成した。