2ヶ月前

VLCounter: テキストに配慮した視覚表現によるゼロショット物体カウント

Kang, Seunggu ; Moon, WonJun ; Kim, Euiyeon ; Heo, Jae-Pil
VLCounter: テキストに配慮した視覚表現によるゼロショット物体カウント
要約

ゼロショットオブジェクトカウント(ZSOC)は、人間によるアノテーションの例を必要とせずに、クエリ画像中の任意のクラスのインスタンスを数えることを目指しています。ZSOCに対処するために、先行研究では2段階パイプラインが提案されてきました:例の発見とカウントです。しかし、順次設計された2段階プロセスには、誤り伝播に対する脆弱性という課題が残されています。本研究では、CLIPの意味パッチ埋め込みの暗黙的な関連性を探求する1段階ベースラインであるビジュアル言語ベースライン(VLBase)を提案します。その後、VLBaseをオブジェクトカウントに適応させるために考案された3つのモジュールを組み込むことで、VLBaseの拡張版であるビジュアル言語カウンター(VLCounter)が実現されました。まず、画像エンコーダ内に導入された意味条件付きプロンプトチューニング(Semantic-conditioned Prompt Tuning, SPT)により、ターゲットを強調した表現が得られます。次に、学習可能なアフィン変換(Learnable Affine Transformation, LAT)が用いられ、意味パッチ類似度マップをカウントタスクに適した形に変換します。最後に、層ごとにエンコードされた特徴量は、セグメント認識スキップ接続(Segment-aware Skip Connection, SaSC)を通じてデコーダへ転送され、未見クラスに対する汎化能力が維持されます。FSC147, CARPK, およびPUCPR+データセットにおける広範な実験を通じて、エンドツーエンドフレームワークであるVLCounterの利点が示されています。

VLCounter: テキストに配慮した視覚表現によるゼロショット物体カウント | 最新論文 | HyperAI超神経