Command Palette
Search for a command to run...
VCode : une base d'évaluation codée multimodale utilisant le SVG comme représentation visuelle symbolique
Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

Résumé
Le code est devenu un support précis et exécutable pour le raisonnement et l’action dans l’ère des agents. Toutefois, les progrès réalisés se sont principalement concentrés sur des tâches centrées sur le langage, telles que la synthèse de programmes ou le débogage, la codification centrée sur l’image restant largement sous-exploitée. Inspirés par la manière dont les humains raisonnent à partir de croquis, nous proposons le code SVG comme une représentation visuelle compacte, interprétable et exécutable. Nous introduisons VCode, un benchmark qui reformule la compréhension multimodale comme une tâche de génération de code : étant donné une image, un modèle doit produire un code SVG qui préserve le sens symbolique pour un raisonnement ultérieur. VCode couvre trois domaines : le sens commun général (MM-Vet), les disciplines professionnelles (MMMU) et la perception centrée sur l’image (CV-Bench). Pour évaluer la fidélité symbolique, nous proposons CodeVQA, un nouveau protocole d’évaluation dans lequel un modèle politique répond à des questions posées sur des SVG rendus ; une réponse correcte indique une conservation fidèle du sens symbolique. Expérimentalement, les modèles de vision-linguistique (VLM) de pointe peinent à générer des SVG fidèles, révélant un écart persistant entre la codification centrée sur le langage et celle centrée sur l’image. Pour combler cet écart, nous introduisons VCoder, un cadre agissant qui améliore les VLM selon deux axes : (i) Penser avec révision, une approche itérative d’analyse des écarts et de raffinement du code SVG ; et (ii) Agir avec des outils visuels, où des détecteurs et des parseurs fournissent des indices structurés — objets, formes, textes — au-delà des capacités intrinsèques du modèle. Sur les différents benchmarks, les VLM de pointe, malgré leurs fortes capacités de raisonnement, restent limités en connaissance professionnelle et en raisonnement 3D. VCoder permet une amélioration globale de 12,3 points par rapport au meilleur modèle, Claude-4-Opus. Des études menées avec des humains montrent que tant les humains que les VLM performant moins sur les SVG rendus, mais leur cohérence révèle tout le potentiel de la représentation visuelle symbolique. Le benchmark et le code sont disponibles à l’adresse suivante : https://github.com/CSU-JPG/VCode.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.