2ヶ月前

Grounding DINO 1.5: 「オープンセット物体検出の『エッジ』を進める」

Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
Grounding DINO 1.5: 「オープンセット物体検出の『エッジ』を進める」
要約

本論文では、IDEA Researchが開発したオープンセット物体検出モデルの最新バージョンであるGrounding DINO 1.5を紹介します。このモデル群は、オープンセット物体検出の「エッジ」を進展させることが目的です。Grounding DINO 1.5には2つのモデルが含まれています。高性能な一般化能力を持つGrounding DINO 1.5 Proと、エッジデプロイメントが必要な多くのアプリケーションで求められる高速性に最適化された効率的なGrounding DINO 1.5 Edgeです。Grounding DINO 1.5 Proモデルは、前バージョンを改良し、モデルアーキテクチャの拡大、強化されたビジョンバックボーンの統合、および2,000万枚以上のグランドトラス注釈付き画像を使用した訓練データセットの拡張により、より豊かな意味理解を達成しています。一方、効率性のために特徴スケールを削減したGrounding DINO 1.5 Edgeモデルも、同じ包括的なデータセットで訓練されているため、堅牢な検出能力を維持しています。実証結果は、Grounding DINO 1.5の有効性を示しており、Grounding DINO 1.5 ProモデルはCOCO検出ベンチマークで54.3 AP(平均精度)を記録し、LVIS-minivalゼロショット転移ベンチマークでは55.7 APを達成しました。これらの結果はオープンセット物体検出において新しい記録となっています。さらに、TensorRTによる最適化が施されたGrounding DINO 1.5 Edgeモデルは、LVIS-minivalベンチマークでのゼロショット性能が36.2 APでありながら75.2 FPS(フレームレート)を達成しており、エッジコンピューティングシナリオにより適していることが確認されています。APIを使用したモデル例やデモは以下のURLから公開されます。https://github.com/IDEA-Research/Grounding-DINO-1.5-API