2ヶ月前
野生環境における多モーダルクエリ対象検出
Yifan Xu; Mengdan Zhang; Chaoyou Fu; Peixian Chen; Xiaoshan Yang; Ke Li; Changsheng Xu

要約
私たちはMQ-Detを紹介します。これは、オープンセット汎化に適したテキスト記述と、詳細な粒度を持つ視覚的な例を使用してカテゴリクエリとして利用するための効率的なアーキテクチャおよび事前学習戦略設計です。MQ-Detは、マルチモーダルクエリされた物体検出(Multi-modal Queried object Detection)を目的としており、オープンボキャブラリーのカテゴリと様々な粒度を持つリアルワールドでの検出に対応しています。MQ-Detは、既存の言語クエリのみの検出器に視覚クエリを組み込むことで、冷凍状態の検出器上にプラグアンドプレイでクラススケーラブルなゲート付きパーセイバーモジュールを提案し、カテゴリテキストにクラスごとの視覚情報を追加します。冷凍状態の検出器によって引き起こされる学習慣性問題に対処するために、視覚条件付きマスク言語予測戦略が提案されています。MQ-Detの単純かつ効果的なアーキテクチャと学習戦略設計は、ほとんどの言語クエリ物体検出器と互換性があり、多様なアプリケーションを可能にします。実験結果は、マルチモーダルクエリがオープンワールド検出性能を大幅に向上させることを示しています。例えば、LVISベンチマークにおいて、ダウンストリームファインチューニングなしでマルチモーダルクエリを通じて最新のオープンセット検出器GLIPの性能を+7.8% AP向上させました。また、13つの少ショットダウンストリームタスクにおいて平均+6.3% AP向上させています。この際、GLIPが要する調整時間のわずか3%増加だけで達成されました。コードはhttps://github.com/YifanXu74/MQ-Det で公開されています。