8ヶ月前

概要

物体検出において、モデルに広大なオープンワールドのカテゴリを認識させることが長年の追求目標となっています。視覚言語モデルの汎化能力を活用することで、現在のオープンワールド検出器は限られたカテゴリでの学習にもかかわらず、より広範な語彙を認識できるようになりました。しかし、学習時のカテゴリ語彙のスケールが実世界レベルに拡大すると、以前の粗いクラス名と合わせた分類器はこれらの検出器の認識性能を大幅に低下させます。本論文では、Prova（プロヴァ）と呼ばれる多モーダルプロトタイプ分類器を提案します。Provaは、包括的な多モーダルプロトタイプを抽出し、アライメント分類器の初期化として利用することで、広大な語彙を持つ物体認識における失敗問題に対処します。V3Detにおいて、この単純な手法は追加の射影層のみで一段階型、二段階型およびDETRベースの検出器全てにおいて性能を大幅に向上させます。特に、V3Detの監督設定ではFaster R-CNN、FCOSおよびDINOに対してそれぞれ3.3ポイント、6.2ポイントおよび2.9ポイントのAP（平均精度）向上が見られました。オープン語彙設定では、Provaは32.8ポイントのベースAPと11.0ポイントのノベルAPという新しい最先端性能を達成し、従来の方法よりもそれぞれ2.6ポイントおよび4.3ポイント改善しています。

ソースPDF