CP-DETR:強力なユニバーサルオブジェクト検出を目指したコンセプトプロンプトガイドDETR

最近の普遍的オブジェクト検出に関する研究では、最先端(SoTA)のクローズドセット検出器に言語情報を導入し、大規模な(テキスト-領域)データセットを構築することで、オープンセットの概念への一般化を図るアプローチが進められている。しかし、これらの手法は以下の2つの主要な課題に直面している:(i) プロンプトに含まれる事前情報(prior information)を効率的に活用し、オブジェクトの汎化能力を高める方法、および (ii) 下流タスクにおけるアライメントバイアス(alignment bias)を低減する方法。これらの課題は、事前学習以降の特定のシナリオにおいて、性能が最適でない結果をもたらす要因となっている。本研究では、これらの課題に対処するため、単一の事前学習重みでほぼすべてのシナリオにおいて競争力を持つ強力な普遍的検出基盤モデル「CP-DETR」を提案する。具体的には、スケールごとの統合とマルチスケール融合モジュールを用いて、プロンプトと視覚情報の間の情報相互作用を強化する効率的なプロンプト視覚ハイブリッドエンコーダを設計した。さらに、このハイブリッドエンコーダは、プロンプトマルチラベル損失(prompt multi-label loss)および補助検出ヘッドを導入することで、プロンプト情報の完全な活用が可能となる。テキストプロンプトに加えて、具体的な視覚例から抽象的概念を抽出し、下流タスクにおけるアライメントバイアスを安定的に低減するための2つの実用的な概念プロンプト生成手法——視覚プロンプト(visual prompt)と最適化プロンプト(optimized prompt)——も新たに設計した。これらの有効な設計により、CP-DETRは広範なシナリオにおいて優れた普遍的検出性能を発揮した。例えば、Swin-TバックボーンモデルはLVIS上で47.6のゼロショットAPを達成し、Swin-LバックボーンモデルはODinW35で32.2のゼロショットAPを記録した。また、視覚プロンプト生成法は、インタラクティブ検出によりCOCO valで68.4のAPを達成し、最適化プロンプトはODinW13で73.1のフルショットAPを実現した。