HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen

Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen

Abstract

Kürzlich haben multimodale große Sprachmodelle (MLLMs) aufgrund ihrer leistungsstarken Fähigkeiten zur visuellen Verarbeitung zunehmendes Forschungsinteresse geweckt. Obwohl sie bei verschiedenen visuellen Aufgaben beeindruckende Ergebnisse erzielt haben, bleibt ihre Leistung bei der Generierung von Code aus Diagrammen (chart-to-code generation) unter dem Optimalen. Diese Aufgabe verlangt von den MLLMs, ausführbaren Code zu generieren, der ein gegebenes Diagramm reproduzieren kann. Sie erfordert nicht nur präzise visuelle Verarbeitung, sondern auch eine genaue Übersetzung visueller Elemente in strukturierten Code. Die direkte Aufforderung an die MLLMs, diese komplexe Aufgabe durchzuführen, führt oft zu unzufriedenstellenden Ergebnissen. Um dieser Herausforderung zu begegnen, schlagen wir {ChartIR} vor, eine iterativ-refinierende Methode basierend auf strukturierten Anweisungen. Zunächst unterscheiden wir zwei Aufgaben: visuelle Verarbeitung und Codetranslation. Um die visuelle Verarbeitung zu bewältigen, entwickeln wir zwei Arten von strukturierten Anweisungen: Beschreibung und Differenz. Die Beschreibungsanweisung erfassen die visuellen Elemente des Referenzdiagramms, während die Differenzanweisung die Abweichungen zwischen dem Referenzdiagramm und dem generierten Diagramm charakterisiert. Diese Anweisungen transformieren visuelle Merkmale effektiv in sprachliche Darstellungen und erleichtern damit den nachfolgenden Prozess der Codetranslation. Zweitens zerlegen wir den Gesamtprozess der Diagrammgenerierung in zwei Phasen: initiale Codegenerierung und iterative Refinierung, was es ermöglicht, das endgültige Ergebnis schrittweise zu verbessern. Experimentelle Ergebnisse zeigen, dass unsere Methode im Vergleich zu anderen Methoden sowohl beim Open-Source-Modell Qwen2-VL als auch beim Closed-Source-Modell GPT-4o überlegene Leistungen erzielt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen | Forschungsarbeiten | HyperAI