2ヶ月前

SIA-OVD: シェイプ不変アダプターによるオープンボキャブラリ検出における画像領域ギャップの橋渡し

Zishuo Wang; Wenhao Zhou; Jinglin Xu; Yuxin Peng
SIA-OVD: シェイプ不変アダプターによるオープンボキャブラリ検出における画像領域ギャップの橋渡し
要約

オープンボキャブラリ検出(OVD)は、インスタンスレベルのアノテーションなしで新しい物体を検出し、オープンワールドでの物体検出をより低コストで実現することを目指しています。既存のOVD手法は、CLIPなどのビジョン言語事前学習モデル(VLM)の強力なオープンボキャブラリ画像-テキスト対応能力に主に依存しています。しかし、CLIPは画像とテキストのペアで訓練されており、画像内の局所領域に対する認識能力が不足しているため、画像と領域表現の間にはギャップが生じます。このため、OVDに直接CLIPを使用すると領域分類が正確でない問題が発生します。私たちは、関心領域(RoI)抽出中に領域特徴マップが変形することで主に画像-領域ギャップが引き起こされることを見出しました。OVDにおける不正確な領域分類を軽減するため、新たな形状不変アダプターであるSIA-OVDを提案します。SIA-OVDは異なる形状を持つ領域用の特徴アダプター群を学習し、各領域に対して最適なアダプターを選択する新しいアダプター割り当てメカニズムを設計しています。適応された領域表現は、CLIPによって学習されたテキスト表現との対応性が向上します。多数の実験により、SIA-OVDは形状変形によって生じる画像と領域間のギャップに対処することで、領域分類精度を効果的に向上させることを示しています。COCO-OVDベンチマークにおいて代表的な手法よりも大幅な改善を達成しています。コードはhttps://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024 から利用可能です。

SIA-OVD: シェイプ不変アダプターによるオープンボキャブラリ検出における画像領域ギャップの橋渡し | 最新論文 | HyperAI超神経