2ヶ月前
統一されたオブジェクトの位置特定と検出のためのオープンで包括的なパイプライン
Zhao, Xiangyu ; Chen, Yicheng ; Xu, Shilin ; Li, Xiangtai ; Wang, Xinjiang ; Li, Yining ; Huang, Haian

要約
Grounding-DINOは、オープンセット検出モデルの最先端技術であり、Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、およびReferring Expression Comprehension (REC)などの複数の視覚タスクを扱います。その効果性により、さまざまな下流アプリケーションの主流アーキテクチャとして広く採用されています。しかし、その重要性にもかかわらず、元のGrounding-DINOモデルには訓練コードが公開されていないため、包括的な公的技术詳細が欠けています。このギャップを埋めるために、私たちはMM-Grounding-DINOを提案します。これはMMDetectionツールボックスを使用して構築されたオープンソースで包括的かつユーザーフレンドリーなベースラインです。事前学習には豊富な視覚データセットが採用され、微調整には様々な検出とグラウンドデータセットが使用されます。私たちは各報告結果について包括的な分析を行い、再現のために詳細な設定も提供しています。前述のベンチマークにおける広範な実験は、私たちのMM-Grounding-DINO-TinyがGrounding-DINO-Tinyベースラインを上回ることを示しています。私たちはすべてのモデルを研究コミュニティに公開します。コードと学習済みモデルは以下のURLから入手できます: https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino.