HyperAIHyperAI

Command Palette

Search for a command to run...

VL-LTR: Lernen von klassenweise visuell-sprachlichen Darstellungen für die langtail-orientierte visuelle Erkennung

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

Zusammenfassung

Basiert auf tiefem Lernen stehende Modelle stoßen in der Praxis bei der Verarbeitung langschwänziger Daten auf erhebliche Herausforderungen. Bestehende Ansätze greifen meist auf Ausgleichsstrategien oder Transfer-Learning zurück, um das Problem der Klassenungleichgewichtigkeit im Bildmodus zu bewältigen. In dieser Arbeit präsentieren wir einen visuell-linguistischen Ansatz zur langschwänzigen Erkennung, den wir VL-LTR nennen, und führen empirische Studien zur Nutzenpotenzial der Einführung der Textmodality für die langschwänzige Erkennung (LTR) durch. Im Vergleich zu bestehenden Methoden weist VL-LTR folgende Vorteile auf: (1) Unser Ansatz kann nicht nur visuelle Repräsentationen aus Bildern lernen, sondern auch entsprechende sprachliche Repräsentationen aus rauschhaften, klassenbasierten Textbeschreibungen, die aus dem Internet gesammelt wurden; (2) Unser Verfahren kann die gelernten visuell-linguistischen Repräsentationen effektiv nutzen, um die Leistung der visuellen Erkennung zu verbessern, insbesondere für Klassen mit nur wenigen verfügbaren Bildbeispielen. Wir führen umfangreiche Experimente durch und erreichen auf etablierten LTR-Benchmarks eine neue state-of-the-art-Leistung. Besonders hervorzuheben ist, dass unser Ansatz eine Gesamtgenauigkeit von 77,2 % auf ImageNet-LT erzielt, was die bisher beste Methode um über 17 Punkte deutlich übertrifft und sich damit der Leistung annähert, die bei der Ausbildung auf dem vollständigen ImageNet erreicht wird. Der Quellcode ist unter https://github.com/ChangyaoTian/VL-LTR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp