HyperAIHyperAI

Command Palette

Search for a command to run...

DetCLIPv2: Skalierbares Open-Vocabulary-Objektdetektions-Vortraining durch Wort-Region-Ausrichtung

Lewei Yao Jianhua Han Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Hang Xu

Zusammenfassung

Diese Arbeit präsentiert DetCLIPv2, einen effizienten und skalierbaren Trainingsrahmen, der große Mengen an Bild-Text-Paaren nutzt, um Objektdetektion mit offener Vokabular (OVD) zu erreichen. Im Gegensatz zu früheren OVD-Frameworks, die typischerweise auf einem vortrainierten Vision-Language-Modell (z. B. CLIP) basieren oder Bild-Text-Paare über einen Pseudolabeling-Prozess ausnutzen, lernt DetCLIPv2 direkt und end-to-end die feinabgestimmte Zuordnung zwischen Wörtern und Bildregionen aus massiven Bild-Text-Paaren. Dazu nutzen wir die maximale Ähnlichkeit zwischen Regionen-Vorschlägen und Textwörtern, um das kontrastive Lernziel zu leiten. Um dem Modell gleichzeitig die Fähigkeit zur Lokalisierung zu vermitteln, während es allgemeine Konzepte erlernt, wird DetCLIPv2 unter einer einheitlichen Datenformulierung mit hybrider Supervision aus Detektions-, Grounding- und Bild-Text-Paar-Daten trainiert. Durch die gemeinsame Optimierung mit einem alternierenden Trainingsansatz und die Verwendung von Niedrigauflösungseingaben für Bild-Text-Paare nutzt DetCLIPv2 diese Daten effizient und effektiv: DetCLIPv2 verwendet 13-mal mehr Bild-Text-Paare als DetCLIP bei vergleichbarer Trainingszeit und erreicht eine verbesserte Leistung. Mit 13 Millionen Bild-Text-Paaren für das Vortrainieren zeigt DetCLIPv2 eine herausragende Leistung bei der offenen Vokabular-Detektion; beispielsweise erreicht DetCLIPv2 mit einem Swin-T-Backbone eine Null-Shot-AP von 40,4 % auf dem LVIS-Benchmark, was die bisherigen Arbeiten GLIP/GLIPv2/DetCLIP um 14,4/11,4/4,5 % AP übertrifft und sogar die vollständig überwachte Variante deutlich schlägt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp