2ヶ月前

弱教師付きオブジェクト位置特定のためのトランスフォーマーによる暗黙的な空間キャリブレーション

Haotian Bai; Ruimao Zhang; Jiong Wang; Xiang Wan
弱教師付きオブジェクト位置特定のためのトランスフォーマーによる暗黙的な空間キャリブレーション
要約

弱教師付き物体位置特定(Weakly Supervised Object Localization: WSOL)は、画像レベルのラベルのみを使用して物体を位置特定することを目指しており、実際の応用における低いアノテーションコストから多くの注目を集めています。最近の研究では、視覚Transformerにおける自己注意の長距離依存性を利用して意味的な領域を再活性化し、従来のクラス活性化マッピング(Class Activation Mapping: CAM)での部分的活性化を避けることを目指しています。しかし、Transformerにおける長距離モデリングは物体の固有の空間的一貫性を見逃し、しばしば意味的な領域が物体境界から遠くに拡散するため、位置特定結果が著しく大きくなったり小さくなったりすることがあります。この問題に対処するために、我々は単純でありながら効果的な空間校正モジュール(Spatial Calibration Module: SCM)を導入します。このモジュールはパッチトークンの意味的類似性とその空間関係を統一された拡散モデルに組み込むことで、正確なWSOLを実現します。具体的には、学習可能なパラメータを導入し、意味的相関と空間コンテキスト強度を動的に調整することで効果的な情報伝播を行います。実装においては、SCMはTransformerの外部モジュールとして設計されており、推論時には削除することで計算コストを削減できます。訓練フェーズでの最適化を通じて、物体に敏感な位置特定能力が暗黙的にTransformerエンコーダーに埋め込まれます。これにより生成される注意マップはより鮮明な物体境界を捉えつつ、物体に関連しない背景領域をフィルタリングすることができます。広範な実験結果により提案手法の有効性が示され、CUB-200およびImageNet-1KベンチマークにおいてTS-CAMよりも大幅に優れた性能を発揮することが確認されています。コードはhttps://github.com/164140757/SCM で公開されています。

弱教師付きオブジェクト位置特定のためのトランスフォーマーによる暗黙的な空間キャリブレーション | 最新論文 | HyperAI超神経