VisCodex : Génération multimodale de code unifiée par fusion de modèles visuels et de codage

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont considérablement progressé dans l’intégration de la compréhension visuelle et textuelle. Toutefois, leur capacité à générer du code à partir d’entrées multimodales reste limitée. Dans ce travail, nous introduisons VisCodex, un cadre unifié qui intègre de manière fluide des modèles visuels et des modèles de langage de programmation afin d’offrir aux MLLM des capacités avancées de génération de code multimodal. En exploitant une technique de fusion de modèles basée sur des vecteurs de tâche, nous intégrons un modèle de langage de programmation d’avant-garde à une architecture fondamentale vision-langage performante, tout en préservant à la fois la compréhension visuelle et les compétences avancées en programmation. Pour soutenir l’entraînement et l’évaluation, nous proposons le Multimodal Coding Dataset (MCD), un ensemble de données à grande échelle et diversifié comprenant 598 000 échantillons, incluant du code HTML de haute qualité, des paires image-code de graphiques, des questions-réponses StackOverflow enrichies par des images, ainsi que des problèmes algorithmiques. En outre, nous proposons InfiBench-V, un nouveau benchmark exigeant spécifiquement conçu pour évaluer les modèles sur des questions de programmation riches en éléments visuels, exigeant une compréhension fine des contextes textuels et visuels. Des expériences étendues montrent que VisCodex atteint des performances de pointe parmi les MLLM open-source et s’approche des modèles propriétaires tels que GPT-4o, mettant ainsi en évidence l’efficacité de notre stratégie de fusion de modèles et de nos nouveaux jeux de données.