HyperAIHyperAI

Command Palette

Search for a command to run...

VLIS: Einmodale Sprachmodelle leiten multimodale Spracherzeugung

Jiwan Chung; Youngjae Yu

Zusammenfassung

Die multimodale Sprachgenerierung, die die Synergie von Sprache und Vision nutzt, ist ein rasch wachsendes Forschungsfeld. Bestehende visuelle-linguistische Modelle haben jedoch Schwierigkeiten bei Aufgaben, die eine komplexe sprachliche Verarbeitung erfordern. Um dieses Problem zu lösen, stellen wir das Framework „Visual-Language Models as Importance Sampling Weights“ (VLIS) vor. Dieser Ansatz kombiniert die visuelle Bedingungsfähigkeit von visuellen-linguistischen Modellen mit der sprachlichen Verarbeitungskraft von unimodalen rein textbasierten Sprachmodellen ohne zusätzliches Training. Er extrahiert die punktweise gegenseitige Information jedes Bildes und Textes aus einem visuellen-linguistischen Modell und verwendet diesen Wert als Importance-Sampling-Gewicht, um die Token-Wahrscheinlichkeiten eines rein textbasierten Modells anzupassen. VLIS verbessert visuelle-linguistische Modelle in verschiedenen Aufgabenbereichen, darunter Alltagsverstand (WHOOPS, OK-VQA und ScienceQA) sowie komplexe Textgenerierung (Concadia, Image Paragraph Captioning und ROCStories). Unsere Ergebnisse deuten darauf hin, dass VLIS eine vielversprechende neue Richtung für multimodale Sprachgenerierung darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLIS: Einmodale Sprachmodelle leiten multimodale Spracherzeugung | Paper | HyperAI