HyperAIHyperAI

Command Palette

Search for a command to run...

Eindringen in multimodale Prompting für feinabgestimmte visuelle Klassifikation

Xin Jiang Hao Tang Junyao Gao Xiaoyu Du Shengfeng He Zechao Li

Zusammenfassung

Feinabgestufte visuelle Klassifikation (Fine-grained Visual Classification, FGVC) beinhaltet die Kategorisierung feiner Unterteilungen innerhalb einer breiteren Kategorie und stellt aufgrund subtiler Unterschiede zwischen Klassen und großer innerhalb-Klassen-Variabilität erhebliche Herausforderungen dar. Bisherige Ansätze konzentrieren sich jedoch hauptsächlich auf einmodale visuelle Konzepte. Neuere Fortschritte in vortrainierten Vision-Sprache-Modellen haben beachtliche Leistungen bei verschiedenen hochleveligen visuellen Aufgaben gezeigt, doch deren Anwendbarkeit auf FGVC-Aufgaben bleibt unklar. In diesem Artikel zielen wir darauf ab, die Fähigkeiten der multimodalen Beschreibung vollständig auszunutzen, um FGVC-Aufgaben zu bewältigen, und stellen eine neuartige multimodale Prompting-Lösung namens MP-FGVC basierend auf dem Contrastive Language-Image Pre-training (CLIP)-Modell vor. Unser MP-FGVC besteht aus einem multimodalen Prompting-Schema und einem multimodalen Anpassungsschema. Erstere umfasst den unterkategorispezifischen Visuellen Prompt (SsVP) und den diskrepanzbeachtenden Textprompt (DaTP), die explizit die unterkategorispezifischen Unterschiede aus Sicht sowohl der Visuellen als auch der sprachlichen Modalität hervorheben. Letzteres aligniert die visuellen und sprachlichen Prompt-Elemente in einem gemeinsamen semantischen Raum und fördert durch einen Vision-Sprache-Fusionsmodul (VLFM) eine kooperative multimodale Schlussfolgerung, um die Leistung bei FGVC weiter zu verbessern. Zudem entwickeln wir eine zweistufige Optimierungsstrategie für MP-FGVC, um das vortrainierte CLIP-Modell optimal auszunutzen und eine effiziente Anpassung an FGVC-Aufgaben zu beschleunigen. Umfangreiche Experimente an vier FGVC-Datensätzen belegen die Wirksamkeit unseres MP-FGVC-Ansatzes.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp