Grounding DINO 1.5: Den „Rand“ der Offenen Objekterkennung erweitern

Dieses Papier stellt Grounding DINO 1.5 vor, eine Suite fortschrittlicher offener Objekterkennungsmodelle, die von der IDEA Research entwickelt wurden und das Ziel haben, den „Rand“ (Edge) der offenen Objekterkennung zu erweitern. Die Suite umfasst zwei Modelle: Grounding DINO 1.5 Pro, ein leistungsstarkes Modell, das für eine bessere Generalisierungsfähigkeit in einer Vielzahl von Szenarien ausgelegt ist, und Grounding DINO 1.5 Edge, ein effizientes Modell, das für die hohen Geschwindigkeitsanforderungen vieler Anwendungen optimiert wurde, die eine Edge-Bereitstellung erfordern.Das Modell Grounding DINO 1.5 Pro übertrifft sein Vorgängermodell durch eine Skalierung der Architektur, die Integration eines verbesserten visuellen Backbones sowie die Erweiterung des Trainingsdatensatzes auf mehr als 20 Millionen Bilder mit Grundierungsanmerkungen (grounding annotations), wodurch ein reichhaltigeres semantisches Verständnis erreicht wird. Das Modell Grounding DINO 1.5 Edge wurde zwar mit reduzierten Featureskalen für Effizienz konzipiert, behält jedoch robuste Erkennungsfähigkeiten durch die Ausbildung am gleichen umfassenden Datensatz.Empirische Ergebnisse belegen die Effektivität von Grounding DINO 1.5: Das Modell Grounding DINO 1.5 Pro erreicht einen AP-Wert von 54,3 auf dem COCO-Erkennungsbenchmark und einen AP-Wert von 55,7 auf dem LVIS-minival-Zero-Shot-Transfer-Benchmark, was neue Rekorde in der offenen Objekterkennung setzt. Des Weiteren erreicht das Modell Grounding DINO 1.5 Edge bei Optimierung mit TensorRT eine Geschwindigkeit von 75,2 FPS und gleichzeitig eine Zero-Shot-Leistung von 36,2 AP auf dem LVIS-minival-Benchmark, was es besser für Edge-Rechen-Szenarien eignet.Beispiele und Demos der Modelle mit API werden unter https://github.com/IDEA-Research/Grounding-DINO-1.5-API veröffentlicht werden.