HyperAIHyperAI

Command Palette

Search for a command to run...

LMPT: Prompt Tuning mit klassenspezifischem Embedding-Verlust für langschwänzige Multi-Label-Bilderkennung

Peng Xia Di Xu Ming Hu Lie Ju Zongyuan Ge

Zusammenfassung

Die Aufgabe der langschwänzigen mehrfachbeschrifteten visuellen Erkennung (Long-tailed multi-label visual recognition, LTML) stellt aufgrund der gemeinsamen Auftretens von Labels und der ungleichmäßigen Datenaufteilung eine äußerst herausfordernde Aufgabe dar. In dieser Arbeit präsentieren wir einen einheitlichen Rahmen für LTML, namens Prompt Tuning mit klassenspezifischer Embedding-Verlustfunktion (LMPT), der durch die Kombination von Text- und Bilddaten die semantischen Merkmalsinteraktionen zwischen Kategorien erfasst und gleichzeitig die Leistung sowohl für Kopf- als auch für Schwanzklassen verbessert. Konkret führt LMPT eine Embedding-Verlustfunktion mit klassenbewusstem weichem Margin und Neugewichtung ein, um klassenspezifische Kontexte unter Nutzung von textuellen Beschreibungen (Caption) zu lernen. Dies ermöglicht die Stärkung semantischer Beziehungen zwischen Klassen, insbesondere zwischen Kopf- und Schwanzklassen. Darüber hinaus berücksichtigt das Verfahren die Klassenungleichgewichtigkeit durch die Verwendung einer verteilungsgleichgewichteten Verlustfunktion als Klassifikationsverlust, was die Leistung auf den Schwanzklassen weiter verbessert, ohne die Leistung der Kopfklassen zu beeinträchtigen. Umfassende Experimente wurden auf den Datensätzen VOC-LT und COCO-LT durchgeführt, wobei gezeigt wird, dass unsere Methode die bisherigen state-of-the-art-Methoden sowie zero-shot CLIP in der LTML erheblich übertrifft. Der Quellcode ist vollständig öffentlich unter https://github.com/richard-peng-xia/LMPT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LMPT: Prompt Tuning mit klassenspezifischem Embedding-Verlust für langschwänzige Multi-Label-Bilderkennung | Paper | HyperAI