2ヶ月前

SIM-Trans: 細部視覚分類のための構造情報モデリングトランスフォーマー

Sun, Hongbo ; He, Xiangteng ; Peng, Yuxin
SIM-Trans: 細部視覚分類のための構造情報モデリングトランスフォーマー
要約

微細視覚分類(Fine-grained Visual Categorization, FGVC)は、類似した下位カテゴリーから物体を認識することを目指しており、これは人間の正確な自動認識ニーズにとって挑戦的かつ実践的な課題です。多くのFGVCアプローチは、差別的領域の探索に注目した注意メカニズムの研究に焦点を当てていますが、それらの相互依存関係や全体的な物体構造を見落としています。これらの要素は、モデルの差別的情報の位置特定と理解能力にとって不可欠です。この制限に対処するため、我々はStructure Information Modeling Transformer(SIM-Trans)を提案します。このモデルは、物体構造情報をトランスフォーマーに組み込むことで、外観情報と構造情報を両方含む差別的表現学習を強化することを目的としています。具体的には、画像をパッチトークンのシーケンスにエンコードし、2つの巧妙に設計されたモジュールを持つ強力なビジョントランスフォーマーフレームワークを構築しました。(i) 構造情報学習(Structure Information Learning, SIL)モジュールは、トランスフォーマーの自己注意重みを利用して物体範囲内の重要なパッチ間の空間コンテキスト関係を抽出するために提案されました。これにより構造情報をモデルに導入することができます。(ii) 多段階特徴強化(Multi-level Feature Boosting, MFB)モジュールは、クラス間での補完性のある多段階特徴と対比学習を利用することで特徴の堅牢性を向上させ、正確な認識を可能にするために導入されました。提案された2つのモジュールは軽量であり、任意のトランスフォーマーネットワークに容易に組み込むことができ、エンドツーエンドで訓練できます。これらはビジョントランスフォーマー自体が提供する注意重みのみに依存しています。広範な実験と分析により、提案されたSIM-Transが微細視覚分類ベンチマークにおいて最先端の性能を達成することが示されています。コードは以下のURLで公開されています: https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022.