Command Palette
Search for a command to run...
Symbolische Grafikprogrammierung mit großen Sprachmodellen
Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

Abstract
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Stärke im Bereich der Programmgenerierung aus, doch ihre Fähigkeit, symbolische Grafikprogramme (SGPs) zu erzeugen, die in präzise visuelle Inhalte umgesetzt werden können, bleibt bisher wenig erforscht. In dieser Arbeit untersuchen wir das Gebiet des symbolischen Grafikprogrammierens, bei dem das Ziel darin besteht, aus einer natürlichsprachlichen Beschreibung ein SGP zu generieren. Diese Aufgabe dient zudem als Spiegelbild dafür, wie LLMs die visuelle Welt verstehen, indem sie dazu angeregt werden, Bilder aus SGPs zu rendern. Unter den verschiedenen Arten von SGPs konzentrieren wir uns in unserer Studie auf skalierbare Vektorgrafiken (SVG). Zunächst untersuchen wir, in welchem Maße LLMs in der Lage sind, SGPs zu generieren. Dazu stellen wir SGP-GenBench vor, eine umfassende Benchmark, die Aspekte wie Objektfidelität, Szenenfidelität sowie Kompositionalität (Attributbindung, räumliche Beziehungen, Quantifizierung) abdeckt. Auf SGP-GenBench zeigen wir, dass führende proprietäre Modelle signifikant besser abschneiden als Open-Source-Modelle, und dass die Leistungsfähigkeit gut mit allgemeinen Programmierfähigkeiten korreliert. Aufgrund dieser Lücke zielen wir darauf ab, die Fähigkeit von LLMs zur Generierung von SGPs zu verbessern. Wir schlagen einen Ansatz basierend auf Verstärkendem Lernen (Reinforcement Learning, RL) mit überprüfbarer Belohnung vor, bei dem ein Format-Validitätsgate sicherstellt, dass die SVG-Datei renderbar ist, und eine multimodale Belohnung die Übereinstimmung zwischen Text und gerendertem Bild mittels leistungsfähiger Vision-Encoder (z. B. SigLIP für Text-Bild- und DINO für Bild-Bild-Übereinstimmung) optimiert. Angewendet auf Qwen-2.5-7B führt unsere Methode zu einer deutlichen Verbesserung der Qualität und Semantik der SVG-Generierung und erreicht eine Leistung, die mit jener führender Systeme vergleichbar ist. Zudem analysieren wir die Trainingsdynamik und zeigen, dass RL (i) eine feinere Zerlegung von Objekten in steuerbare Primitive und (ii) kontextuelle Details fördert, die die Kohärenz der Szenen verbessern. Unsere Ergebnisse belegen, dass das symbolische Grafikprogrammieren eine präzise und interpretierbare Perspektive auf die multimodale Grundlage (cross-modal grounding) bietet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.