HyperAIHyperAI

Command Palette

Search for a command to run...

VisCodex : Génération multimodale de code unifiée par fusion de modèles visuels et de codage

Lingjie Jiang Shaohan Huang Xun Wu Yixia Li Dongdong Zhang Furu Wei

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont considérablement progressé dans l’intégration de la compréhension visuelle et textuelle. Toutefois, leur capacité à générer du code à partir d’entrées multimodales reste limitée. Dans ce travail, nous introduisons VisCodex, un cadre unifié qui intègre de manière fluide des modèles visuels et des modèles de langage de programmation afin d’offrir aux MLLM des capacités avancées de génération de code multimodal. En exploitant une technique de fusion de modèles basée sur des vecteurs de tâche, nous intégrons un modèle de langage de programmation d’avant-garde à une architecture fondamentale vision-langage performante, tout en préservant à la fois la compréhension visuelle et les compétences avancées en programmation. Pour soutenir l’entraînement et l’évaluation, nous proposons le Multimodal Coding Dataset (MCD), un ensemble de données à grande échelle et diversifié comprenant 598 000 échantillons, incluant du code HTML de haute qualité, des paires image-code de graphiques, des questions-réponses StackOverflow enrichies par des images, ainsi que des problèmes algorithmiques. En outre, nous proposons InfiBench-V, un nouveau benchmark exigeant spécifiquement conçu pour évaluer les modèles sur des questions de programmation riches en éléments visuels, exigeant une compréhension fine des contextes textuels et visuels. Des expériences étendues montrent que VisCodex atteint des performances de pointe parmi les MLLM open-source et s’approche des modèles propriétaires tels que GPT-4o, mettant ainsi en évidence l’efficacité de notre stratégie de fusion de modèles et de nos nouveaux jeux de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp