HyperAIHyperAI

Command Palette

Search for a command to run...

ViTからの無料ランチ:微細な視覚認識のための適応的アテンション多スケール融合Transformer

Yuan Zhang Jian Cao Ling Zhang Xiangcheng Liu Zhiyi Wang Feng Ling Weiqian Chen

概要

オブジェクトパーツに関する微細な表現を学習することは、細粒度視覚認識(FGVR)分野において極めて重要な役割を果たす。視覚変換器(ViT)は、その注目メカニズムにより、コンピュータビジョン分野で有望な成果を達成している。しかし、ViTにおける固定サイズのパッチ構造により、深層部におけるクラストークンはグローバルな受容野に注目するため、FGVRに必要な多スケール特徴を生成できないという課題がある。ボックスアノテーションを必要とせずに領域注目を捉え、ViTのFGVRにおける欠点を補うため、本研究では新たな手法である「適応的注目多スケール融合変換器(AFTrans)」を提案する。本手法における選択的注目収集モジュール(SACM)は、ViT内の注目重みを活用し、入力パッチの相対的な重要度に応じて適応的にフィルタリングを行う。複数スケール(グローバルおよびローカル)のパイプラインは、重み共有エンコーダによって監視され、エンドツーエンドで容易に学習可能である。広範な実験により、AFTransがCUB-200-2011、Stanford Dogs、iNat2017の3つの公開細粒度ベンチマークにおいて、最先端(SOTA)の性能を達成できることを実証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています