HyperAI

Abstract

Die jüngsten großskaligen Vision-Sprache-Vortrainierungsansätze (VLP) mit Dual-Stream-Architekturen (z. B. CLIP), die auf einer riesigen Menge an Bild-Text-Paardaten basieren, haben ihre Überlegenheit bei verschiedenen multimodalen Alignmentsaufgaben gezeigt. Trotz dieses Erfolgs sind die resultierenden Modelle aufgrund des schwachen Textencoders nicht in der Lage, generative multimodale Aufgaben zu bewältigen. Um dieses Problem anzugehen, schlagen wir vor, das Dual-Stream-VLP-Modell durch eine vortrainierte Sprachmodell (PLM) mittels vision-sprachlicher Wissensdistillation (VLKD) zu erweitern, wodurch die Fähigkeit zur multimodalen Generierung ermöglicht wird. Im Vergleich zur Vortrainierung von Grund auf ist VLKD äußerst daten- und recheneffizient. Experimentelle Ergebnisse zeigen, dass das resultierende Modell starke Zero-Shot-Leistungen bei multimodalen Generierungsaufgaben erzielt, beispielsweise bei offenen visuellen Fragenstellungen und Bildbeschreibungen. So erreicht es beispielsweise eine Zero-Shot-Accuracy von 39,7 % auf dem VQA 2.0-Datensatz und übertrifft damit das vorherige State-of-the-Art-Zero-Shot-Modell, obwohl es nur ein 14-fach geringerer Anzahl an Parametern verfügt. Zudem bleibt die ursprüngliche Textverarbeitungsfähigkeit des PLM nach der VLKD erhalten, was unser Modell für sowohl multimodale als auch unimodale Aufgaben vielseitig einsetzbar macht.

Benchmark	Methodik	Metriken
image-captioning-on-coco-captions	VLKD (ViT-B/16)	BLEU-4: 16.7 CIDER: 58.3 METEOR: 19.7 SPICE: 13.4
visual-question-answering-on-ok-vqa	VLKD(ViT-B/16)	Accuracy: 10.5
visual-question-answering-on-vqa-v2-test-dev	VLKD	Accuracy: 44.5
visual-question-answering-on-vqa-v2-val	VLKD(ViT-B/16)	Accuracy: 38.6

Benchmark

Methodik

Metriken

image-captioning-on-coco-captions

VLKD (ViT-B/16)

BLEU-4: 16.7

CIDER: 58.3

METEOR: 19.7

SPICE: 13.4

visual-question-answering-on-ok-vqa

VLKD(ViT-B/16)

Accuracy: 10.5

visual-question-answering-on-vqa-v2-test-dev

VLKD

Accuracy: 44.5

visual-question-answering-on-vqa-v2-val

VLKD(ViT-B/16)

Accuracy: 38.6

Multimodale Generierung auf CLIP durch vision-sprachliche Wissensdistillation ermöglichen

{Anonymous}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Multimodale Generierung auf CLIP durch vision-sprachliche Wissensdistillation ermöglichen

{Anonymous}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters