vor 3 Monaten

SgVA-CLIP: Semantikgesteuerte visuelle Anpassung von Visuo-Sprachmodellen für Few-shot-Bildklassifikation

Fang Peng, Xiaoshan Yang, Linhui Xiao, Yaowei Wang, Changsheng Xu

Abstract

Obwohl erhebliche Fortschritte im Few-Shot-Lernen erzielt wurden, erfordern die meisten bestehenden Methoden zur Few-Shot-Bildklassifikation eine überwachte Vortrainierung auf einer großen Menge an Beispielbildern der Basisklassen, was ihre Generalisierungsfähigkeit in realen Anwendungen einschränkt. In jüngster Zeit gewinnen große, visuell-sprachlich vortrainierte Modelle (Vision-Language Pre-trained Models, VLPs) zunehmend an Aufmerksamkeit im Bereich des Few-Shot-Lernens, da sie ein neues Paradigma für die übertragbare Lernung visueller Darstellungen bieten, wobei Textinformationen, die leicht über das Web zugänglich sind, genutzt werden können. Allerdings können VLPs feinabgestimmte visuelle Informationen vernachlässigen, die sich schwer durch Sprachbeschreibungen erfassen lassen, aber für die Entwicklung eines effektiven Klassifikators zur Unterscheidung zwischen Bildern von entscheidender Bedeutung sind. Um dieses Problem zu lösen, schlagen wir einen neuen Ansatz namens Semantic-guided Visual Adapting (SgVA) vor, der es ermöglicht, visuell-sprachlich vortrainierte Modelle effektiv zu erweitern, um diskriminative, angepasste visuelle Merkmale zu generieren. Dies geschieht durch eine umfassende Nutzung einer impliziten Wissensvermittlung (knowledge distillation), einer visionspezifischen kontrastiven Verlustfunktion und einer multimodalen kontrastiven Verlustfunktion. Die implizite Wissensvermittlung ist speziell darauf ausgelegt, feinkörnige, multimodale Kenntnisse zu übertragen, um die Aktualisierung des Vision-Adapters zu leiten. Zustandsbestimmende Ergebnisse auf 13 Datensätzen belegen, dass die angepassten visuellen Merkmale die multimodalen Merkmale gut ergänzen und somit die Leistung bei der Few-Shot-Bildklassifikation verbessern.