HyperAIHyperAI
vor 11 Tagen

Ausnutzung von unbezeichneten Daten mit Vision- und Sprachmodellen für die Objekterkennung

Shiyu Zhao, Zhixing Zhang, Samuel Schulter, Long Zhao, Vijay Kumar B.G, Anastasis Stathopoulos, Manmohan Chandraker, Dimitris Metaxas
Ausnutzung von unbezeichneten Daten mit Vision- und Sprachmodellen für die Objekterkennung
Abstract

Der Aufbau robuster und generischer Objektdetektionsframeworks erfordert eine Skalierung auf größere Kategorierräume und umfangreichere Trainingsdatensätze. Die Annotierung von Tausenden von Kategorien in großem Maßstab ist jedoch prohibitiv kostspielig. Wir stellen eine neuartige Methode vor, die die reiche Semantik nutzt, die in jüngsten Vision- und Sprachmodellen enthalten ist, um Objekte in unbeschrifteten Bildern zu lokalisieren und zu klassifizieren und somit effektiv Pseudolabels für die Objektdetektion zu generieren. Ausgehend von einem generischen und klassenunabhängigen Regionen-Vorschlagsmechanismus verwenden wir Vision- und Sprachmodelle, um jede Region eines Bildes in jede beliebige Objektkategorie einzuteilen, die für nachgeschaltete Aufgaben erforderlich ist. Wir demonstrieren den Wert der generierten Pseudolabels anhand zweier spezifischer Aufgaben: Open-Vocabulary-Detektion, bei der ein Modell auf bisher nicht gesehene Objektkategorien generalisieren muss, sowie semi-supervised Objektdetektion, bei der zusätzliche unbeschriftete Bilder zur Verbesserung des Modells genutzt werden können. Unsere empirische Evaluation zeigt die Wirksamkeit der Pseudolabels in beiden Aufgaben, wobei wir gegenüber konkurrierenden Baselines überlegen sind und eine neue State-of-the-Art-Leistung für die Open-Vocabulary-Objektdetektion erzielen. Unser Code ist unter https://github.com/xiaofeng94/VL-PLM verfügbar.

Ausnutzung von unbezeichneten Daten mit Vision- und Sprachmodellen für die Objekterkennung | Neueste Forschungsarbeiten | HyperAI