VCode: Ein multimodales Kodierungsbenchmark mit SVG als symbolischer visueller Darstellung
Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

Abstract
Code ist in der Ära der Agenten zu einem präzisen und ausführbaren Medium für kognitives Schließen und Handeln geworden. Dennoch konzentriert sich der Fortschritt weitgehend auf sprachzentrierte Aufgaben wie die Programmgenerierung und Fehlerbehebung, während die visuell zentrierte Codeerstellung bisher unterentwickelt bleibt. Inspiriert durch die Art und Weise, wie Menschen über Skizzen nachdenken, befürworten wir SVG-Code als kompakte, interpretierbare und ausführbare visuelle Darstellung. Wir stellen VCode vor, eine Benchmark, die die multimodale Verständnisaufgabe neu definiert als Codegenerierung: Gegeben ein Bild muss ein Modell SVG-Code erzeugen, der die symbolische Bedeutung für nachfolgende Schlussfolgerungen bewahrt. VCode umfasst drei Domänen – allgemeines Alltagswissen (MM-Vet), fachliche Disziplinen (MMMU) und visuell zentrierte Wahrnehmung (CV-Bench). Zur Bewertung der symbolischen Treue schlagen wir CodeVQA vor, ein neuartiges Evaluationsprotokoll, bei dem ein Policy-Modell Fragen anhand gerendertem SVG beantwortet; korrekte Antworten deuten auf eine treue Erhaltung der symbolischen Bedeutung hin. Empirisch zeigen die führenden VLMs (Vision-Language-Modelle) Schwierigkeiten, genaue SVG-Code zu generieren, was eine anhaltende Lücke zwischen sprachzentrierter und visuell zentrierter Codeerstellung aufzeigt. Um diese Lücke zu schließen, führen wir VCoder ein, einen agentenbasierten Rahmen, der VLMs entlang zweier Achsen erweitert: (i) Denken mit Überarbeitung, bei dem systematisch Abweichungen analysiert und der SVG-Code iterativ verfeinert werden; und (ii) Handeln mit visuellen Werkzeugen, bei denen Detektoren und Parser strukturierte Hinweise wie Objekte, Formen und Text bereitstellen, die über die inhärente Kapazität des Modells hinausgehen. In den Benchmarks erzielen führende VLMs mit starken Schlussfolgerungsfähigkeiten insgesamt gute Ergebnisse, bleiben jedoch in fachlichem Wissen und 3D-Schlussfolgerung eingeschränkt. VCoder erreicht gegenüber dem bestperformenden Claude-4-Opus eine insgesamt 12,3-Punkte-Steigerung. Menschliche Studien zeigen, dass sowohl Menschen als auch VLMs bei gerenderten SVGs schlechter abschneiden, wobei die Konsistenz der Leistung jedoch das Potenzial einer symbolischen visuellen Darstellung belegt. Die Benchmark und der zugehörige Code sind unter https://github.com/CSU-JPG/VCode verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.