2ヶ月前

CORA: CLIPを用いたオープンボキャブラリ検出のための領域プロンプティングとアンカー事前マッチング

Wu, Xiaoshi ; Zhu, Feng ; Zhao, Rui ; Li, Hongsheng
CORA: CLIPを用いたオープンボキャブラリ検出のための領域プロンプティングとアンカー事前マッチング
要約

オープンボキャブラリ検出(OVD)は、検出器が訓練された基本カテゴリを超えた新しいカテゴリの物体を検出することを目指すタスクです。最近のOVD手法では、CLIPなどの大規模な視覚言語事前学習モデルを用いて未知の物体を認識しています。これらのモデルを検出器の訓練に組み込む際に克服しなければならない2つの核心的な障壁を特定しました:(1) 全体画像で訓練されたVLモデルを領域認識タスクに適用した際に生じる分布の不一致;(2) 未見クラスの物体を局所化する難しさ。これらの障壁を克服するために、我々はCORAと呼ばれるDETRスタイルのフレームワークを提案します。CORAは、Region prompting(領域プロンプティング)とAnchor pre-matching(アンカー事前マッチング)によってCLIPをオープンボキャブラリ検出に適応させます。領域プロンプティングは、CLIPベースの領域分類器の領域特徴をプロンプトすることで全体から部分への分布ギャップを軽減します。アンカー事前マッチングは、クラス認識可能なマッチングメカニズムにより一般化可能な物体局所化の学習を支援します。CORAはCOCO OVDベンチマークで評価され、新規クラスにおいて41.7 AP50という結果を得ました。これは追加の訓練データを使用せずに前の最先端手法よりも2.4 AP50高い性能です。追加の訓練データが利用可能である場合、我々はCORA$^+$を真実値基本カテゴリアノテーションとCORAによって計算された追加の疑似バウンディングボックスラベル両方で訓練します。CORA$^+$はCOCO OVDベンチマークで43.1 AP50、LVIS OVDベンチマークで28.1 box APrという結果を得ています。