17日前

内部アンサンブル学習Transformerを用いた細粒度視覚分類

{Bin Luo, Bo Jiang, Jiahui Wang, Qin Xu}
要約

最近、視覚変換器(Vision Transformers: ViTs)は細粒度視覚認識(Fine-Grained Visual Recognition: FGVC)において広く研究され、現在では最先端の手法として位置づけられている。しかし、多数のViTベースの手法は、マルチヘッド自己注意(Multi-Head Self-Attention: MHSA)機構の各ヘッドおよび各層間における学習性能の差異を無視している。この問題に対処するため、本稿ではFGVC向けに新たな内部アンサンブル学習変換器(Internal Ensemble Learning Transformer: IELT)を提案する。提案手法IELTは、3つの主要モジュールから構成される:マルチヘッド投票(Multi-Head Voting: MHV)モジュール、クロスレイヤー精製(Cross-Layer Refinement: CLR)モジュール、および動的選択(Dynamic Selection: DS)モジュール。複数のヘッド間での性能の不一致問題を解決するため、MHVモジュールを提案。このモジュールでは、各レイヤー内のすべてのヘッドを弱学習者とみなすとともに、注意マップと空間的関係に基づいて、判別性の高い領域のトークンをクロスレイヤー特徴として投票する。さらに、クロスレイヤー特徴の効果的な抽出とノイズの抑制を実現するため、CLRモジュールを導入。このモジュールでは精製された特徴を抽出し、最終予測に用いるための補助ログティス(assist logits)演算を新たに開発した。また、新たに設計されたDSモジュールは、精製された特徴に対する各トークンの寄与度を重み付けすることで、各レイヤーにおけるトークン選択数を動的に調整する。このように、アンサンブル学習の考え方をViTに統合することで、細粒度特徴表現の性能を向上させた。実験の結果、本手法は5つの代表的なFGVCデータセットにおいて、最先端手法と比較しても競争力のある結果を達成した。ソースコードは公開されており、以下のURLから入手可能である:https://github.com/mobulan/IELT。

内部アンサンブル学習Transformerを用いた細粒度視覚分類 | 最新論文 | HyperAI超神経