Multimodale Generierung auf CLIP durch vision-sprachliche Wissensdistillation ermöglichen

Die jüngsten großskaligen Vision-Sprache-Vortrainierungsansätze (VLP) mit Dual-Stream-Architekturen (z. B. CLIP), die auf einer riesigen Menge an Bild-Text-Paardaten basieren, haben ihre Überlegenheit bei verschiedenen multimodalen Alignmentsaufgaben gezeigt. Trotz dieses Erfolgs sind die resultierenden Modelle aufgrund des schwachen Textencoders nicht in der Lage, generative multimodale Aufgaben zu bewältigen. Um dieses Problem anzugehen, schlagen wir vor, das Dual-Stream-VLP-Modell durch eine vortrainierte Sprachmodell (PLM) mittels vision-sprachlicher Wissensdistillation (VLKD) zu erweitern, wodurch die Fähigkeit zur multimodalen Generierung ermöglicht wird. Im Vergleich zur Vortrainierung von Grund auf ist VLKD äußerst daten- und recheneffizient. Experimentelle Ergebnisse zeigen, dass das resultierende Modell starke Zero-Shot-Leistungen bei multimodalen Generierungsaufgaben erzielt, beispielsweise bei offenen visuellen Fragenstellungen und Bildbeschreibungen. So erreicht es beispielsweise eine Zero-Shot-Accuracy von 39,7 % auf dem VQA 2.0-Datensatz und übertrifft damit das vorherige State-of-the-Art-Zero-Shot-Modell, obwohl es nur ein 14-fach geringerer Anzahl an Parametern verfügt. Zudem bleibt die ursprüngliche Textverarbeitungsfähigkeit des PLM nach der VLKD erhalten, was unser Modell für sowohl multimodale als auch unimodale Aufgaben vielseitig einsetzbar macht.