vor 6 Monaten

Shiyu Zhao Zhixing Zhang Samuel Schulter Long Zhao Vijay Kumar B.G Anastasis Stathopoulos Manmohan Chandraker Dimitris Metaxas

Zusammenfassung

Der Aufbau robuster und generischer Objektdetektionsframeworks erfordert eine Skalierung auf größere Kategorierräume und umfangreichere Trainingsdatensätze. Die Annotierung von Tausenden von Kategorien in großem Maßstab ist jedoch prohibitiv kostspielig. Wir stellen eine neuartige Methode vor, die die reiche Semantik nutzt, die in jüngsten Vision- und Sprachmodellen enthalten ist, um Objekte in unbeschrifteten Bildern zu lokalisieren und zu klassifizieren und somit effektiv Pseudolabels für die Objektdetektion zu generieren. Ausgehend von einem generischen und klassenunabhängigen Regionen-Vorschlagsmechanismus verwenden wir Vision- und Sprachmodelle, um jede Region eines Bildes in jede beliebige Objektkategorie einzuteilen, die für nachgeschaltete Aufgaben erforderlich ist. Wir demonstrieren den Wert der generierten Pseudolabels anhand zweier spezifischer Aufgaben: Open-Vocabulary-Detektion, bei der ein Modell auf bisher nicht gesehene Objektkategorien generalisieren muss, sowie semi-supervised Objektdetektion, bei der zusätzliche unbeschriftete Bilder zur Verbesserung des Modells genutzt werden können. Unsere empirische Evaluation zeigt die Wirksamkeit der Pseudolabels in beiden Aufgaben, wobei wir gegenüber konkurrierenden Baselines überlegen sind und eine neue State-of-the-Art-Leistung für die Open-Vocabulary-Objektdetektion erzielen. Unser Code ist unter https://github.com/xiaofeng94/VL-PLM verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Objekterkennung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Shiyu Zhao Zhixing Zhang Samuel Schulter Long Zhao Vijay Kumar B.G Anastasis Stathopoulos Manmohan Chandraker Dimitris Metaxas

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Objekterkennung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Shiyu Zhao Zhixing Zhang Samuel Schulter Long Zhao Vijay Kumar B.G Anastasis Stathopoulos Manmohan Chandraker Dimitris Metaxas

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Ausnutzung von unbezeichneten Daten mit Vision- und Sprachmodellen für die Objekterkennung

Shiyu Zhao Zhixing Zhang Samuel Schulter Long Zhao Vijay Kumar B.G Anastasis Stathopoulos Manmohan Chandraker Dimitris Metaxas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ausnutzung von unbezeichneten Daten mit Vision- und Sprachmodellen für die Objekterkennung

Shiyu Zhao Zhixing Zhang Samuel Schulter Long Zhao Vijay Kumar B.G Anastasis Stathopoulos Manmohan Chandraker Dimitris Metaxas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ausnutzung von unbezeichneten Daten mit Vision- und Sprachmodellen für die Objekterkennung

Shiyu Zhao Zhixing Zhang Samuel Schulter Long Zhao Vijay Kumar B.G Anastasis Stathopoulos Manmohan Chandraker Dimitris Metaxas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters