HyperAIHyperAI

Command Palette

Search for a command to run...

包括多モーダルプロトタイプは、大語彙オブジェクト検出のための単純で効果的な分類器です。

Yitong Chen Wenhao Yao Lingchen Meng Sihong Wu Zuxuan Wu Yu-Gang Jiang

概要

物体検出において、モデルに広大なオープンワールドのカテゴリを認識させることが長年の追求目標となっています。視覚言語モデルの汎化能力を活用することで、現在のオープンワールド検出器は限られたカテゴリでの学習にもかかわらず、より広範な語彙を認識できるようになりました。しかし、学習時のカテゴリ語彙のスケールが実世界レベルに拡大すると、以前の粗いクラス名と合わせた分類器はこれらの検出器の認識性能を大幅に低下させます。本論文では、Prova(プロヴァ)と呼ばれる多モーダルプロトタイプ分類器を提案します。Provaは、包括的な多モーダルプロトタイプを抽出し、アライメント分類器の初期化として利用することで、広大な語彙を持つ物体認識における失敗問題に対処します。V3Detにおいて、この単純な手法は追加の射影層のみで一段階型、二段階型およびDETRベースの検出器全てにおいて性能を大幅に向上させます。特に、V3Detの監督設定ではFaster R-CNN、FCOSおよびDINOに対してそれぞれ3.3ポイント、6.2ポイントおよび2.9ポイントのAP(平均精度)向上が見られました。オープン語彙設定では、Provaは32.8ポイントのベースAPと11.0ポイントのノベルAPという新しい最先端性能を達成し、従来の方法よりもそれぞれ2.6ポイントおよび4.3ポイント改善しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています