11日前
ビジョン・トランスフォーマー・オフ・ザ・シェルフ:少量サンプル・クラスに依存しないカウンティングにおける驚くべきベースライン
Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu

要約
クラスに依存しないカウンティング(Class-agnostic Counting: CAC)は、少数の例示画像(exemplars)を用いて、クエリ画像内の関心対象オブジェクトを数えることを目的とする。このタスクは従来、クエリ画像と例示画像の特徴量をそれぞれ抽出し、その特徴量の類似度を照合することで実現されており、典型的な「抽出→照合」のアーキテクチャが採用されている。本研究では、このようなプロセスを「抽出・照合」の一連の処理として簡素化可能であることを示す。特に、ビジョン変換器(Vision Transformer: ViT)を用いることで、自己注意機構(self-attention)内において特徴抽出と類似度照合を同時に行うことが可能となる。本研究では、自己注意機構の分離的(decoupled)な視点から、この簡素化の根拠を明らかにする。その結果得られたモデルを「CACViT」と命名し、CACのパイプラインを単一の事前学習済みのシンプルなViTに統合した。さらに、単純なViTにおけるリサイズおよび正規化によって失われたスケール情報およびオーダー・オブ・マグニチュード情報の補完を目的として、スケールおよびマグニチュード埋め込みのための2つの有効な戦略を提案する。FSC147およびCARPKデータセットにおける広範な実験の結果、CACViTは最先端のCAC手法と比較して、効果性(誤差低減23.60%)および一般化性能の両面で顕著な優位性を示した。これにより、CACViTがCACタスクにおける簡潔かつ強力なベースラインを提供していることが示唆される。コードは公開予定である。