VLIS: Einmodale Sprachmodelle leiten multimodale Spracherzeugung

Die multimodale Sprachgenerierung, die die Synergie von Sprache und Vision nutzt, ist ein rasch wachsendes Forschungsfeld. Bestehende visuelle-linguistische Modelle haben jedoch Schwierigkeiten bei Aufgaben, die eine komplexe sprachliche Verarbeitung erfordern. Um dieses Problem zu lösen, stellen wir das Framework „Visual-Language Models as Importance Sampling Weights“ (VLIS) vor. Dieser Ansatz kombiniert die visuelle Bedingungsfähigkeit von visuellen-linguistischen Modellen mit der sprachlichen Verarbeitungskraft von unimodalen rein textbasierten Sprachmodellen ohne zusätzliches Training. Er extrahiert die punktweise gegenseitige Information jedes Bildes und Textes aus einem visuellen-linguistischen Modell und verwendet diesen Wert als Importance-Sampling-Gewicht, um die Token-Wahrscheinlichkeiten eines rein textbasierten Modells anzupassen. VLIS verbessert visuelle-linguistische Modelle in verschiedenen Aufgabenbereichen, darunter Alltagsverstand (WHOOPS, OK-VQA und ScienceQA) sowie komplexe Textgenerierung (Concadia, Image Paragraph Captioning und ROCStories). Unsere Ergebnisse deuten darauf hin, dass VLIS eine vielversprechende neue Richtung für multimodale Sprachgenerierung darstellt.