17日前
ViTからの無料ランチ:微細な視覚認識のための適応的アテンション多スケール融合Transformer
Yuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng Ling, Weiqian Chen

要約
オブジェクトパーツに関する微細な表現を学習することは、細粒度視覚認識(FGVR)分野において極めて重要な役割を果たす。視覚変換器(ViT)は、その注目メカニズムにより、コンピュータビジョン分野で有望な成果を達成している。しかし、ViTにおける固定サイズのパッチ構造により、深層部におけるクラストークンはグローバルな受容野に注目するため、FGVRに必要な多スケール特徴を生成できないという課題がある。ボックスアノテーションを必要とせずに領域注目を捉え、ViTのFGVRにおける欠点を補うため、本研究では新たな手法である「適応的注目多スケール融合変換器(AFTrans)」を提案する。本手法における選択的注目収集モジュール(SACM)は、ViT内の注目重みを活用し、入力パッチの相対的な重要度に応じて適応的にフィルタリングを行う。複数スケール(グローバルおよびローカル)のパイプラインは、重み共有エンコーダによって監視され、エンドツーエンドで容易に学習可能である。広範な実験により、AFTransがCUB-200-2011、Stanford Dogs、iNat2017の3つの公開細粒度ベンチマークにおいて、最先端(SOTA)の性能を達成できることを実証した。