HyperAIHyperAI
vor 2 Monaten

Eine offene und umfassende Pipeline für die einheitliche Objektverankerung und -erkennung

Zhao, Xiangyu ; Chen, Yicheng ; Xu, Shilin ; Li, Xiangtai ; Wang, Xinjiang ; Li, Yining ; Huang, Haian
Eine offene und umfassende Pipeline für die einheitliche Objektverankerung und -erkennung
Abstract

Grounding-DINO ist ein neuester offener Detektionsmodell, das mehrere visuelle Aufgaben wie die Offene Vokabular-Detektion (Open-Vocabulary Detection, OVD), Phrasengrundierung (Phrase Grounding, PG) und die Verarbeitung referierender Ausdrücke (Referring Expression Comprehension, REC) angeht. Seine Effizienz hat zu seiner weit verbreiteten Adoption als eine Hauptarchitektur für verschiedene nachgeschaltete Anwendungen geführt. Trotz seiner Bedeutung fehlen im ursprünglichen Grounding-DINO-Modell umfassende technische Details der Öffentlichkeit aufgrund der Nichtverfügbarkeit seines Trainingscodes. Um diese Lücke zu schließen, präsentieren wir MM-Grounding-DINO, eine quelloffene, umfassende und benutzerfreundliche Baseline, die mit dem MMDetection-Toolbox entwickelt wurde. Es nutzt zahlreiche visuelle Datensätze für das Pre-Training und verschiedene Detektions- und Grundierungsdatensätze für das Fine-Tuning. Wir geben eine detaillierte Analyse jedes gemeldeten Ergebnisses sowie ausführliche Einstellungen zur Reproduktion an. Die umfangreichen Experimente auf den genannten Benchmarks zeigen, dass unser MM-Grounding-DINO-Tiny das Grounding-DINO-Tiny-Baseline-Modell übertrifft. Wir stellen alle unsere Modelle der Forschergemeinschaft zur Verfügung. Der Code und die trainierten Modelle werden veröffentlicht unterhttps://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino.

Eine offene und umfassende Pipeline für die einheitliche Objektverankerung und -erkennung | Neueste Forschungsarbeiten | HyperAI