vor 9 Tagen

VL-LTR: Lernen von klassenweise visuell-sprachlichen Darstellungen für die langtail-orientierte visuelle Erkennung

Changyao Tian, Wenhai Wang, Xizhou Zhu, Jifeng Dai, Yu Qiao

Abstract

Basiert auf tiefem Lernen stehende Modelle stoßen in der Praxis bei der Verarbeitung langschwänziger Daten auf erhebliche Herausforderungen. Bestehende Ansätze greifen meist auf Ausgleichsstrategien oder Transfer-Learning zurück, um das Problem der Klassenungleichgewichtigkeit im Bildmodus zu bewältigen. In dieser Arbeit präsentieren wir einen visuell-linguistischen Ansatz zur langschwänzigen Erkennung, den wir VL-LTR nennen, und führen empirische Studien zur Nutzenpotenzial der Einführung der Textmodality für die langschwänzige Erkennung (LTR) durch. Im Vergleich zu bestehenden Methoden weist VL-LTR folgende Vorteile auf: (1) Unser Ansatz kann nicht nur visuelle Repräsentationen aus Bildern lernen, sondern auch entsprechende sprachliche Repräsentationen aus rauschhaften, klassenbasierten Textbeschreibungen, die aus dem Internet gesammelt wurden; (2) Unser Verfahren kann die gelernten visuell-linguistischen Repräsentationen effektiv nutzen, um die Leistung der visuellen Erkennung zu verbessern, insbesondere für Klassen mit nur wenigen verfügbaren Bildbeispielen. Wir führen umfangreiche Experimente durch und erreichen auf etablierten LTR-Benchmarks eine neue state-of-the-art-Leistung. Besonders hervorzuheben ist, dass unser Ansatz eine Gesamtgenauigkeit von 77,2 % auf ImageNet-LT erzielt, was die bisher beste Methode um über 17 Punkte deutlich übertrifft und sich damit der Leistung annähert, die bei der Ausbildung auf dem vollständigen ImageNet erreicht wird. Der Quellcode ist unter https://github.com/ChangyaoTian/VL-LTR verfügbar.