Command Palette
Search for a command to run...
Amélioration de l'affinage itératif pour la génération de code à partir de diagrammes via des instructions structurées
Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

Résumé
Récemment, les grands modèles de langage multimodaux (MLLMs) ont attiré une attention croissante de la part des chercheurs en raison de leurs capacités puissantes de compréhension visuelle. Bien qu'ils aient obtenu des résultats impressionnants sur diverses tâches liées à la vision, leur performance en génération de code à partir de graphiques reste sous-optimale. Cette tâche exige que les MLLMs génèrent un code exécutable capable de reproduire un graphique donné, ce qui nécessite non seulement une compréhension visuelle précise mais aussi une traduction exacte des éléments visuels en code structuré. L'incitation directe des MLLMs à effectuer cette tâche complexe produit souvent des résultats insatisfaisants. Pour relever ce défi, nous proposons {ChartIR}, une méthode d'amélioration itérative basée sur des instructions structurées. Tout d'abord, nous distinguons deux tâches : la compréhension visuelle et la traduction de code. Pour réaliser la composante de compréhension visuelle, nous concevons deux types d'instructions structurées : description et différence. L'instruction de description capture les éléments visuels du graphique de référence, tandis que l'instruction de différence caractérise les écarts entre le graphique de référence et le graphique généré. Ces instructions transforment efficacement les caractéristiques visuelles en représentations linguistiques, facilitant ainsi le processus ultérieur de traduction de code. Ensuite, nous décomposons le pipeline global de génération de graphiques en deux étapes : génération initiale du code et amélioration itérative, permettant une amélioration progressive du résultat final. Les résultats expérimentaux montrent que, comparativement aux autres méthodes, notre méthode atteint des performances supérieures tant sur le modèle open-source Qwen2-VL que sur le modèle closed-source GPT-4o.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.