DetCLIPv3: Hin zu einer vielseitigen generativen offenen-Wörterbuch-Objekterkennung

Bekannte Open-Vocabulary-Objektdetektoren erfordern typischerweise eine vordefinierte Menge an Kategorien von Nutzern, was ihre Anwendungsszenarien erheblich einschränkt. In diesem Paper stellen wir DetCLIPv3 vor, einen leistungsstarken Detektor, der nicht nur bei der Open-Vocabulary-Objektdetektion hervorragt, sondern auch hierarchische Bezeichnungen für erkannte Objekte generieren kann. DetCLIPv3 zeichnet sich durch drei zentrale Designelemente aus: 1. Vielseitige Modellarchitektur: Wir entwickeln einen robusten Open-Set-Detektionsrahmen, der durch die Integration eines Caption-Head zusätzlich mit Generierungsfähigkeit ausgestattet wird. 2. Hochinformationsdichte Daten: Wir implementieren eine automatisierte Annotierungspipeline, die auf einem visuellen Großsprachmodell basiert, um die Beschreibungen für große Mengen von Bild-Text-Paaren zu verfeinern und so reichhaltige, mehrschichtige Objektbezeichnungen zur Verbesserung des Trainings bereitzustellen. 3. Effiziente Trainingsstrategie: Wir nutzen eine Vortrainingsphase mit niedriger Auflösung, die es dem Objekt-Captioner ermöglicht, effizient ein breites Spektrum visueller Konzepte aus umfangreichen Bild-Text-Paaren zu lernen. Dies wird durch eine Feinabstimmungsphase ergänzt, die nur eine geringe Anzahl hochauflösender Proben nutzt, um die Detektionsleistung weiter zu steigern. Durch diese effektiven Designprinzipien zeigt DetCLIPv3 eine herausragende Leistung bei der Open-Vocabulary-Detektion: Beispielsweise erreicht unser Swin-T-Backbone-Modell auf dem LVIS minival-Benchmark eine bemerkenswerte AP von 47,0 im Zero-Shot-Setting – dies entspricht einer Verbesserung um 18,0/19,6/6,6 AP gegenüber GLIPv2, GroundingDINO und DetCLIPv2. Zudem erzielt DetCLIPv3 eine state-of-the-art AP von 19,7 bei der dichten Beschreibungsaufgabe auf dem VG-Datensatz, was seine starke Generierungskapazität unterstreicht.