HyperAIHyperAI

Command Palette

Search for a command to run...

VLIS : Les modèles de langage unimodaux guident la génération de langage multimodal

Jiwan Chung; Youngjae Yu

Résumé

La génération de langage multimodal, qui tire parti de la synergie entre le langage et la vision, est un domaine en expansion rapide. Cependant, les modèles existants de vision-langage font face à des défis dans les tâches nécessitant une compréhension linguistique complexe. Pour remédier à ce problème, nous présentons les modèles visuels-linguistiques comme poids d'échantillonnage par importance (VLIS), un cadre novateur qui combine la capacité de conditionnement visuel des modèles de vision-langage avec la compréhension du langage des modèles textuels unimodaux sans nécessiter d'entraînement supplémentaire. Ce cadre extrait l'information mutuelle ponctuelle de chaque image et texte à partir d'un modèle de vision-langage et utilise cette valeur comme poids d'échantillonnage par importance pour ajuster la probabilité des tokens issus d'un modèle textuel uniquement. Les VLIS améliorent les performances des modèles de vision-langage sur diverses tâches, notamment la compréhension du sens commun (WHOOPS, OK-VQA et ScienceQA) et la génération de texte complexe (Concadia, Image Paragraph Captioning et ROCStories). Nos résultats suggèrent que les VLIS représentent une nouvelle direction prometteuse pour la génération de langage multimodal.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VLIS : Les modèles de langage unimodaux guident la génération de langage multimodal | Articles | HyperAI