il y a 2 mois

Programmation graphique symbolique avec des grands modèles linguistiques

Voir les détails de l'article Voir le code

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

Programmation graphique symbolique avec des grands modèles linguistiques

Résumé

Les grands modèles linguistiques (LLM) se distinguent par leur capacité à générer des programmes, mais leur aptitude à produire des programmes graphiques symboliques (SGP, symbolic graphics programs) capables de générer des contenus visuels précis reste largement sous-exploree. Nous étudions la programmation graphique symbolique, dont l’objectif consiste à générer un SGP à partir d’une description en langage naturel. Cette tâche constitue également un prisme permettant d’explorer la manière dont les LLM comprennent le monde visuel, en les incitant à générer des images à partir de SGPs. Parmi les différents types de SGPs, notre travail se concentre sur les graphiques vectoriels évolutifs (SVG). Nous commençons par examiner dans quelle mesure les LLM sont capables de générer des SGPs. À cette fin, nous introduisons SGP-GenBench, un benchmark complet couvrant la fidélité des objets, la fidélité de la scène, ainsi que la compositionnalité (liaison d’attributs, relations spatiales, numératie). Sur SGP-GenBench, nous constatons que les modèles propriétaires de pointe surpassent nettement les modèles open-source, et que leurs performances corréler bien avec leurs capacités générales en programmation. Inspirés par cet écart, nous cherchons à améliorer la capacité des LLM à générer des SGPs. Nous proposons une approche fondée sur l’apprentissage par renforcement (RL) avec récompenses vérifiables, dans laquelle une porte de validité du format garantit la génération d’un SVG rendu, et une récompense cross-modale aligne le texte et l’image rendue grâce à des encodeurs visuels puissants (par exemple, SigLIP pour la correspondance texte-image, DINO pour l’alignement image-image). Appliquée au modèle Qwen-2.5-7B, notre méthode améliore de manière significative la qualité et la sémantique de la génération SVG, atteignant des performances comparables à celles des systèmes de pointe. Nous analysons également les dynamiques d’entraînement, montrant que le RL induit (i) une décomposition plus fine des objets en primitives contrôlables, et (ii) des détails contextuels renforçant la cohérence scénique. Nos résultats démontrent que la programmation graphique symbolique offre un outil précis et interprétable pour étudier le repérage cross-modale.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Programmation graphique symbolique avec des grands modèles linguistiques

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

Résumé

Construire l'IA avec l'IA

Hyper Newsletters