VLIS : Les modèles de langage unimodaux guident la génération de langage multimodal

La génération de langage multimodal, qui tire parti de la synergie entre le langage et la vision, est un domaine en expansion rapide. Cependant, les modèles existants de vision-langage font face à des défis dans les tâches nécessitant une compréhension linguistique complexe. Pour remédier à ce problème, nous présentons les modèles visuels-linguistiques comme poids d'échantillonnage par importance (VLIS), un cadre novateur qui combine la capacité de conditionnement visuel des modèles de vision-langage avec la compréhension du langage des modèles textuels unimodaux sans nécessiter d'entraînement supplémentaire. Ce cadre extrait l'information mutuelle ponctuelle de chaque image et texte à partir d'un modèle de vision-langage et utilise cette valeur comme poids d'échantillonnage par importance pour ajuster la probabilité des tokens issus d'un modèle textuel uniquement. Les VLIS améliorent les performances des modèles de vision-langage sur diverses tâches, notamment la compréhension du sens commun (WHOOPS, OK-VQA et ScienceQA) et la génération de texte complexe (Concadia, Image Paragraph Captioning et ROCStories). Nos résultats suggèrent que les VLIS représentent une nouvelle direction prometteuse pour la génération de langage multimodal.