Labelpropagation für Zero-Shot-Klassifizierung mit Vision-Language-Modellen

Vision-Language-Modelle (VLMs) haben beeindruckende Leistungen bei der Nullschuss-Klassifizierung (zero-shot classification) gezeigt, d.h. Klassifizierung auf Grundlage einer einfachen Liste von Klassenbezeichnungen. In dieser Arbeit befassen wir uns mit dem Fall der Nullschuss-Klassifizierung in Anwesenheit von nicht gekennzeichneten Daten. Wir nutzen die Graphstruktur der nicht gekennzeichneten Daten und stellen ZLaP vor, eine Methode, die auf Labelpropagation (LP) basiert und geodätische Abstände für die Klassifizierung nutzt. Wir passen LP an Graphen an, die sowohl Text- als auch Bildmerkmale enthalten, und schlagen außerdem eine effiziente Methode zur induktiven Inferenz vor, die auf einer dualen Lösung und einem Verdünnungsschritt (sparsification step) beruht. Wir führen umfangreiche Experimente durch, um die Effektivität unserer Methode auf 14 gängigen Datensätzen zu evaluieren, und zeigen, dass ZLaP den neuesten verwandten Arbeiten überlegen ist. Quellcode: https://github.com/vladan-stojnic/ZLaP