DetCLIPv3:多様な生成型オープンボリューム物体検出への道

従来のオープンボリュームオブジェクト検出器は、ユーザーが事前に定義したカテゴリセットを必要とするため、応用範囲が著しく制限されてきた。本論文では、オープンボリュームオブジェクト検出において優れた性能を発揮するだけでなく、検出されたオブジェクトに対して階層的なラベルを生成する能力を備えたDetCLIPv3を提案する。DetCLIPv3の特徴は以下の3つの核心設計に集約される。1. 柔軟なモデルアーキテクチャ:視覚的オープンセット検出フレームワークを構築し、キャプションヘッドの統合により、オブジェクトの記述生成能力を付加することで、より強固な性能を実現している。2. 情報密度の高いデータ:視覚大規模言語モデル(visual large language model)を活用した自動アノテーションパイプラインを開発し、大規模な画像・テキストペアのキャプションを精緻化することで、豊富で多粒度なオブジェクトラベルを提供し、学習の質を向上させている。3. 効率的な学習戦略:低解像度入力での事前学習ステージを採用することで、広範な画像・テキストペアデータから多様な視覚的概念を効率的に学習可能にした。その後、高解像度の少量サンプルを用いた微調整ステージを実施し、検出性能をさらに向上させている。これらの有効な設計により、DetCLIPv3は優れたオープンボリューム検出性能を示しており、特にLVIS minivalベンチマークにおいて、Swin-Tバックボーンモデルでゼロショット固定APが47.0を達成し、GLIPv2、GroundingDINO、DetCLIPv2をそれぞれ18.0/19.6/6.6 APの差で上回った。また、VGデータセットにおける密集型キャプション(dense captioning)タスクでは、19.7 APという最先端の性能を達成し、その強力な生成能力を実証している。