Ein einfacher Baseline-Ansatz für die Long-Tailed-Anerkennung mittels Vision-Sprache-Modell

Die visuelle Welt zeigt naturgemäß eine langschwänzige Verteilung offener Klassen, was moderne visuelle Systeme vor große Herausforderungen stellt. Bestehende Ansätze führen entweder Strategien zur Umverteilung der Klassen oder direkt Verbesserungen an Netzwerkmodulen durch, um dieses Problem zu bewältigen. Allerdings trainieren sie weiterhin Modelle mit einer endlichen Menge vordefinierter Labels, was ihre Supervisionsinformationen begrenzt und ihre Übertragbarkeit auf neue Instanzen einschränkt. Neuere Fortschritte im Bereich der großskaligen kontrastiven visuell-sprachlichen Vortrainierung eröffnen einen neuen Ansatz für die visuelle Erkennung. Durch die Nutzung von offenen Vokabular-Supervisionen lernen vortrainierte kontrastive visuell-sprachliche Modelle leistungsfähige multimodale Repräsentationen, die vielversprechend sind, um Datenknappheit und unbekannte Konzepte zu bewältigen. Durch die Berechnung der semantischen Ähnlichkeit zwischen visuellen und textuellen Eingaben wird die visuelle Erkennung in ein visuell-sprachliches Übereinstimmungsproblem transformiert. Inspiriert durch diese Idee, schlagen wir BALLAD vor, um kontrastive visuell-sprachliche Modelle für die Erkennung langschwänziger Klassen zu nutzen. Zunächst führen wir das visuell-sprachliche Grundmodell durch kontrastives Lernen auf einem spezifischen langschwänzigen Ziel-Datensatz weiter vor. Danach fixieren wir das Grundmodell und setzen eine zusätzliche Adapter-Schicht ein, um die Repräsentationen der selteneren Klassen auf ausgewogenen Trainingsbeispielen zu verbessern, die durch Resampling-Strategien generiert wurden. Umfassende Experimente wurden auf drei gängigen Benchmarks für langschwänzige Erkennung durchgeführt. Unser einfacher und effektiver Ansatz erreicht dabei neue SOTA-Leistungen und übertrifft die Wettbewerbsbaselines mit großem Abstand. Der Quellcode ist unter https://github.com/gaopengcuhk/BALLAD verfügbar.