HyperAIHyperAI

Command Palette

Search for a command to run...

SgVA-CLIP: Semantikgesteuerte visuelle Anpassung von Visuo-Sprachmodellen für Few-shot-Bildklassifikation

Fang Peng Xiaoshan Yang Linhui Xiao Yaowei Wang Changsheng Xu

Zusammenfassung

Obwohl erhebliche Fortschritte im Few-Shot-Lernen erzielt wurden, erfordern die meisten bestehenden Methoden zur Few-Shot-Bildklassifikation eine überwachte Vortrainierung auf einer großen Menge an Beispielbildern der Basisklassen, was ihre Generalisierungsfähigkeit in realen Anwendungen einschränkt. In jüngster Zeit gewinnen große, visuell-sprachlich vortrainierte Modelle (Vision-Language Pre-trained Models, VLPs) zunehmend an Aufmerksamkeit im Bereich des Few-Shot-Lernens, da sie ein neues Paradigma für die übertragbare Lernung visueller Darstellungen bieten, wobei Textinformationen, die leicht über das Web zugänglich sind, genutzt werden können. Allerdings können VLPs feinabgestimmte visuelle Informationen vernachlässigen, die sich schwer durch Sprachbeschreibungen erfassen lassen, aber für die Entwicklung eines effektiven Klassifikators zur Unterscheidung zwischen Bildern von entscheidender Bedeutung sind. Um dieses Problem zu lösen, schlagen wir einen neuen Ansatz namens Semantic-guided Visual Adapting (SgVA) vor, der es ermöglicht, visuell-sprachlich vortrainierte Modelle effektiv zu erweitern, um diskriminative, angepasste visuelle Merkmale zu generieren. Dies geschieht durch eine umfassende Nutzung einer impliziten Wissensvermittlung (knowledge distillation), einer visionspezifischen kontrastiven Verlustfunktion und einer multimodalen kontrastiven Verlustfunktion. Die implizite Wissensvermittlung ist speziell darauf ausgelegt, feinkörnige, multimodale Kenntnisse zu übertragen, um die Aktualisierung des Vision-Adapters zu leiten. Zustandsbestimmende Ergebnisse auf 13 Datensätzen belegen, dass die angepassten visuellen Merkmale die multimodalen Merkmale gut ergänzen und somit die Leistung bei der Few-Shot-Bildklassifikation verbessern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp