Grounding DINO: Die Verbindung von DINO mit grundlegendem Vortraining für die Erkennung von Objekten in offenen Mengen

In dieser Arbeit stellen wir einen offenen Objekterkennungsdetektor vor, der als Grounding DINO bezeichnet wird. Dieser entsteht durch die Kombination des transformerbasierten Detektors DINO mit einem grundlegenden Vortrainingsansatz und ist in der Lage, beliebige Objekte auf Basis menschlicher Eingaben wie Kategorienamen oder referierenden Ausdrücken zu erkennen. Die wesentliche Lösung für die Erkennung von offenen Objekten besteht darin, Sprache in einen geschlossenen Detektor einzuführen, um eine Verallgemeinerung von offenen Konzepten zu ermöglichen. Um Sprache und visuelle Modalitäten effektiv zu fusionieren, gliedern wir konzeptionell einen geschlossenen Detektor in drei Phasen und schlagen eine enge Fusionlösung vor, die einen Feature-Verstärker (feature enhancer), eine sprachgesteuerte Abfrageauswahl (language-guided query selection) und einen Cross-Modality-Decoder zur Modalfusion umfasst. Während frühere Arbeiten hauptsächlich die Erkennung von offenen Objekten auf neuen Kategorien evaluiert haben, schlagen wir vor, auch Evaluierungen auf der Verarbeitung referierender Ausdrücke für attributenspezifizierte Objekte durchzuführen. Grounding DINO erzielt bemerkenswerte Ergebnisse in allen drei Szenarien, einschließlich Benchmarks auf COCO, LVIS, ODinW und RefCOCO/+/g. Grounding DINO erreicht eine 52,5 AP (Average Precision) im COCO-Detektions-Zero-Shot-Transfer-Benchmark, d.h., ohne irgendeine Trainingsdaten aus COCO. Es stellt einen neuen Rekord im ODinW-Zero-Shot-Benchmark mit einem durchschnittlichen 26,1 AP auf. Der Quellcode wird unter \url{https://github.com/IDEA-Research/GroundingDINO} verfügbar sein.