HyperAIHyperAI

Command Palette

Search for a command to run...

Programmation graphique symbolique avec des grands modèles linguistiques

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

Résumé

Les grands modèles linguistiques (LLM) se distinguent par leur capacité à générer des programmes, mais leur aptitude à produire des programmes graphiques symboliques (SGP, symbolic graphics programs) capables de générer des contenus visuels précis reste largement sous-exploree. Nous étudions la programmation graphique symbolique, dont l’objectif consiste à générer un SGP à partir d’une description en langage naturel. Cette tâche constitue également un prisme permettant d’explorer la manière dont les LLM comprennent le monde visuel, en les incitant à générer des images à partir de SGPs. Parmi les différents types de SGPs, notre travail se concentre sur les graphiques vectoriels évolutifs (SVG). Nous commençons par examiner dans quelle mesure les LLM sont capables de générer des SGPs. À cette fin, nous introduisons SGP-GenBench, un benchmark complet couvrant la fidélité des objets, la fidélité de la scène, ainsi que la compositionnalité (liaison d’attributs, relations spatiales, numératie). Sur SGP-GenBench, nous constatons que les modèles propriétaires de pointe surpassent nettement les modèles open-source, et que leurs performances corréler bien avec leurs capacités générales en programmation. Inspirés par cet écart, nous cherchons à améliorer la capacité des LLM à générer des SGPs. Nous proposons une approche fondée sur l’apprentissage par renforcement (RL) avec récompenses vérifiables, dans laquelle une porte de validité du format garantit la génération d’un SVG rendu, et une récompense cross-modale aligne le texte et l’image rendue grâce à des encodeurs visuels puissants (par exemple, SigLIP pour la correspondance texte-image, DINO pour l’alignement image-image). Appliquée au modèle Qwen-2.5-7B, notre méthode améliore de manière significative la qualité et la sémantique de la génération SVG, atteignant des performances comparables à celles des systèmes de pointe. Nous analysons également les dynamiques d’entraînement, montrant que le RL induit (i) une décomposition plus fine des objets en primitives contrôlables, et (ii) des détails contextuels renforçant la cohérence scénique. Nos résultats démontrent que la programmation graphique symbolique offre un outil précis et interprétable pour étudier le repérage cross-modale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Programmation graphique symbolique avec des grands modèles linguistiques | Articles | HyperAI