HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Multimodale Generierung auf CLIP durch vision-sprachliche Wissensdistillation ermöglichen

{Anonymous}

Multimodale Generierung auf CLIP durch vision-sprachliche Wissensdistillation ermöglichen

Abstract

Die jüngsten großskaligen Vision-Sprache-Vortrainierungsansätze (VLP) mit Dual-Stream-Architekturen (z. B. CLIP), die auf einer riesigen Menge an Bild-Text-Paardaten basieren, haben ihre Überlegenheit bei verschiedenen multimodalen Alignmentsaufgaben gezeigt. Trotz dieses Erfolgs sind die resultierenden Modelle aufgrund des schwachen Textencoders nicht in der Lage, generative multimodale Aufgaben zu bewältigen. Um dieses Problem anzugehen, schlagen wir vor, das Dual-Stream-VLP-Modell durch eine vortrainierte Sprachmodell (PLM) mittels vision-sprachlicher Wissensdistillation (VLKD) zu erweitern, wodurch die Fähigkeit zur multimodalen Generierung ermöglicht wird. Im Vergleich zur Vortrainierung von Grund auf ist VLKD äußerst daten- und recheneffizient. Experimentelle Ergebnisse zeigen, dass das resultierende Modell starke Zero-Shot-Leistungen bei multimodalen Generierungsaufgaben erzielt, beispielsweise bei offenen visuellen Fragenstellungen und Bildbeschreibungen. So erreicht es beispielsweise eine Zero-Shot-Accuracy von 39,7 % auf dem VQA 2.0-Datensatz und übertrifft damit das vorherige State-of-the-Art-Zero-Shot-Modell, obwohl es nur ein 14-fach geringerer Anzahl an Parametern verfügt. Zudem bleibt die ursprüngliche Textverarbeitungsfähigkeit des PLM nach der VLKD erhalten, was unser Modell für sowohl multimodale als auch unimodale Aufgaben vielseitig einsetzbar macht.

Benchmarks

BenchmarkMethodikMetriken
image-captioning-on-coco-captionsVLKD (ViT-B/16)
BLEU-4: 16.7
CIDER: 58.3
METEOR: 19.7
SPICE: 13.4
visual-question-answering-on-ok-vqaVLKD(ViT-B/16)
Accuracy: 10.5
visual-question-answering-on-vqa-v2-test-devVLKD
Accuracy: 44.5
visual-question-answering-on-vqa-v2-valVLKD(ViT-B/16)
Accuracy: 38.6

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multimodale Generierung auf CLIP durch vision-sprachliche Wissensdistillation ermöglichen | Forschungsarbeiten | HyperAI