DetCLIPv2: Skalierbares Open-Vocabulary-Objektdetektions-Vortraining durch Wort-Region-Ausrichtung

Diese Arbeit präsentiert DetCLIPv2, einen effizienten und skalierbaren Trainingsrahmen, der große Mengen an Bild-Text-Paaren nutzt, um Objektdetektion mit offener Vokabular (OVD) zu erreichen. Im Gegensatz zu früheren OVD-Frameworks, die typischerweise auf einem vortrainierten Vision-Language-Modell (z. B. CLIP) basieren oder Bild-Text-Paare über einen Pseudolabeling-Prozess ausnutzen, lernt DetCLIPv2 direkt und end-to-end die feinabgestimmte Zuordnung zwischen Wörtern und Bildregionen aus massiven Bild-Text-Paaren. Dazu nutzen wir die maximale Ähnlichkeit zwischen Regionen-Vorschlägen und Textwörtern, um das kontrastive Lernziel zu leiten. Um dem Modell gleichzeitig die Fähigkeit zur Lokalisierung zu vermitteln, während es allgemeine Konzepte erlernt, wird DetCLIPv2 unter einer einheitlichen Datenformulierung mit hybrider Supervision aus Detektions-, Grounding- und Bild-Text-Paar-Daten trainiert. Durch die gemeinsame Optimierung mit einem alternierenden Trainingsansatz und die Verwendung von Niedrigauflösungseingaben für Bild-Text-Paare nutzt DetCLIPv2 diese Daten effizient und effektiv: DetCLIPv2 verwendet 13-mal mehr Bild-Text-Paare als DetCLIP bei vergleichbarer Trainingszeit und erreicht eine verbesserte Leistung. Mit 13 Millionen Bild-Text-Paaren für das Vortrainieren zeigt DetCLIPv2 eine herausragende Leistung bei der offenen Vokabular-Detektion; beispielsweise erreicht DetCLIPv2 mit einem Swin-T-Backbone eine Null-Shot-AP von 40,4 % auf dem LVIS-Benchmark, was die bisherigen Arbeiten GLIP/GLIPv2/DetCLIP um 14,4/11,4/4,5 % AP übertrifft und sogar die vollständig überwachte Variante deutlich schlägt.