Grounding DINO 1.5: 「オープンセット物体検出の『エッジ』を進める」

本論文では、IDEA Researchが開発したオープンセット物体検出モデルの最新バージョンであるGrounding DINO 1.5を紹介します。このモデル群は、オープンセット物体検出の「エッジ」を進展させることが目的です。Grounding DINO 1.5には2つのモデルが含まれています。高性能な一般化能力を持つGrounding DINO 1.5 Proと、エッジデプロイメントが必要な多くのアプリケーションで求められる高速性に最適化された効率的なGrounding DINO 1.5 Edgeです。Grounding DINO 1.5 Proモデルは、前バージョンを改良し、モデルアーキテクチャの拡大、強化されたビジョンバックボーンの統合、および2,000万枚以上のグランドトラス注釈付き画像を使用した訓練データセットの拡張により、より豊かな意味理解を達成しています。一方、効率性のために特徴スケールを削減したGrounding DINO 1.5 Edgeモデルも、同じ包括的なデータセットで訓練されているため、堅牢な検出能力を維持しています。実証結果は、Grounding DINO 1.5の有効性を示しており、Grounding DINO 1.5 ProモデルはCOCO検出ベンチマークで54.3 AP(平均精度)を記録し、LVIS-minivalゼロショット転移ベンチマークでは55.7 APを達成しました。これらの結果はオープンセット物体検出において新しい記録となっています。さらに、TensorRTによる最適化が施されたGrounding DINO 1.5 Edgeモデルは、LVIS-minivalベンチマークでのゼロショット性能が36.2 APでありながら75.2 FPS(フレームレート)を達成しており、エッジコンピューティングシナリオにより適していることが確認されています。APIを使用したモデル例やデモは以下のURLから公開されます。https://github.com/IDEA-Research/Grounding-DINO-1.5-API