HyperAIHyperAI

Command Palette

Search for a command to run...

Grounding DINO: Die Verbindung von DINO mit grundlegendem Vortraining für die Erkennung von Objekten in offenen Mengen

Zusammenfassung

In dieser Arbeit stellen wir einen offenen Objekterkennungsdetektor vor, der als Grounding DINO bezeichnet wird. Dieser entsteht durch die Kombination des transformerbasierten Detektors DINO mit einem grundlegenden Vortrainingsansatz und ist in der Lage, beliebige Objekte auf Basis menschlicher Eingaben wie Kategorienamen oder referierenden Ausdrücken zu erkennen. Die wesentliche Lösung für die Erkennung von offenen Objekten besteht darin, Sprache in einen geschlossenen Detektor einzuführen, um eine Verallgemeinerung von offenen Konzepten zu ermöglichen. Um Sprache und visuelle Modalitäten effektiv zu fusionieren, gliedern wir konzeptionell einen geschlossenen Detektor in drei Phasen und schlagen eine enge Fusionlösung vor, die einen Feature-Verstärker (feature enhancer), eine sprachgesteuerte Abfrageauswahl (language-guided query selection) und einen Cross-Modality-Decoder zur Modalfusion umfasst. Während frühere Arbeiten hauptsächlich die Erkennung von offenen Objekten auf neuen Kategorien evaluiert haben, schlagen wir vor, auch Evaluierungen auf der Verarbeitung referierender Ausdrücke für attributenspezifizierte Objekte durchzuführen. Grounding DINO erzielt bemerkenswerte Ergebnisse in allen drei Szenarien, einschließlich Benchmarks auf COCO, LVIS, ODinW und RefCOCO/+/g. Grounding DINO erreicht eine 52,5 AP (Average Precision) im COCO-Detektions-Zero-Shot-Transfer-Benchmark, d.h., ohne irgendeine Trainingsdaten aus COCO. Es stellt einen neuen Rekord im ODinW-Zero-Shot-Benchmark mit einem durchschnittlichen 26,1 AP auf. Der Quellcode wird unter \url{https://github.com/IDEA-Research/GroundingDINO} verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp