LMPT: Prompt Tuning mit klassenspezifischem Embedding-Verlust für langschwänzige Multi-Label-Bilderkennung

Die Aufgabe der langschwänzigen mehrfachbeschrifteten visuellen Erkennung (Long-tailed multi-label visual recognition, LTML) stellt aufgrund der gemeinsamen Auftretens von Labels und der ungleichmäßigen Datenaufteilung eine äußerst herausfordernde Aufgabe dar. In dieser Arbeit präsentieren wir einen einheitlichen Rahmen für LTML, namens Prompt Tuning mit klassenspezifischer Embedding-Verlustfunktion (LMPT), der durch die Kombination von Text- und Bilddaten die semantischen Merkmalsinteraktionen zwischen Kategorien erfasst und gleichzeitig die Leistung sowohl für Kopf- als auch für Schwanzklassen verbessert. Konkret führt LMPT eine Embedding-Verlustfunktion mit klassenbewusstem weichem Margin und Neugewichtung ein, um klassenspezifische Kontexte unter Nutzung von textuellen Beschreibungen (Caption) zu lernen. Dies ermöglicht die Stärkung semantischer Beziehungen zwischen Klassen, insbesondere zwischen Kopf- und Schwanzklassen. Darüber hinaus berücksichtigt das Verfahren die Klassenungleichgewichtigkeit durch die Verwendung einer verteilungsgleichgewichteten Verlustfunktion als Klassifikationsverlust, was die Leistung auf den Schwanzklassen weiter verbessert, ohne die Leistung der Kopfklassen zu beeinträchtigen. Umfassende Experimente wurden auf den Datensätzen VOC-LT und COCO-LT durchgeführt, wobei gezeigt wird, dass unsere Methode die bisherigen state-of-the-art-Methoden sowie zero-shot CLIP in der LTML erheblich übertrifft. Der Quellcode ist vollständig öffentlich unter https://github.com/richard-peng-xia/LMPT verfügbar.