vor 18 Tagen

Eindringen in multimodale Prompting für feinabgestimmte visuelle Klassifikation

Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li

Abstract

Feinabgestufte visuelle Klassifikation (Fine-grained Visual Classification, FGVC) beinhaltet die Kategorisierung feiner Unterteilungen innerhalb einer breiteren Kategorie und stellt aufgrund subtiler Unterschiede zwischen Klassen und großer innerhalb-Klassen-Variabilität erhebliche Herausforderungen dar. Bisherige Ansätze konzentrieren sich jedoch hauptsächlich auf einmodale visuelle Konzepte. Neuere Fortschritte in vortrainierten Vision-Sprache-Modellen haben beachtliche Leistungen bei verschiedenen hochleveligen visuellen Aufgaben gezeigt, doch deren Anwendbarkeit auf FGVC-Aufgaben bleibt unklar. In diesem Artikel zielen wir darauf ab, die Fähigkeiten der multimodalen Beschreibung vollständig auszunutzen, um FGVC-Aufgaben zu bewältigen, und stellen eine neuartige multimodale Prompting-Lösung namens MP-FGVC basierend auf dem Contrastive Language-Image Pre-training (CLIP)-Modell vor. Unser MP-FGVC besteht aus einem multimodalen Prompting-Schema und einem multimodalen Anpassungsschema. Erstere umfasst den unterkategorispezifischen Visuellen Prompt (SsVP) und den diskrepanzbeachtenden Textprompt (DaTP), die explizit die unterkategorispezifischen Unterschiede aus Sicht sowohl der Visuellen als auch der sprachlichen Modalität hervorheben. Letzteres aligniert die visuellen und sprachlichen Prompt-Elemente in einem gemeinsamen semantischen Raum und fördert durch einen Vision-Sprache-Fusionsmodul (VLFM) eine kooperative multimodale Schlussfolgerung, um die Leistung bei FGVC weiter zu verbessern. Zudem entwickeln wir eine zweistufige Optimierungsstrategie für MP-FGVC, um das vortrainierte CLIP-Modell optimal auszunutzen und eine effiziente Anpassung an FGVC-Aufgaben zu beschleunigen. Umfangreiche Experimente an vier FGVC-Datensätzen belegen die Wirksamkeit unseres MP-FGVC-Ansatzes.