vor 8 Monaten

Zusammenfassung

Kürzlich haben multimodale große Sprachmodelle (MLLMs) aufgrund ihrer leistungsstarken Fähigkeiten zur visuellen Verarbeitung zunehmendes Forschungsinteresse geweckt. Obwohl sie bei verschiedenen visuellen Aufgaben beeindruckende Ergebnisse erzielt haben, bleibt ihre Leistung bei der Generierung von Code aus Diagrammen (chart-to-code generation) unter dem Optimalen. Diese Aufgabe verlangt von den MLLMs, ausführbaren Code zu generieren, der ein gegebenes Diagramm reproduzieren kann. Sie erfordert nicht nur präzise visuelle Verarbeitung, sondern auch eine genaue Übersetzung visueller Elemente in strukturierten Code. Die direkte Aufforderung an die MLLMs, diese komplexe Aufgabe durchzuführen, führt oft zu unzufriedenstellenden Ergebnissen. Um dieser Herausforderung zu begegnen, schlagen wir {ChartIR} vor, eine iterativ-refinierende Methode basierend auf strukturierten Anweisungen. Zunächst unterscheiden wir zwei Aufgaben: visuelle Verarbeitung und Codetranslation. Um die visuelle Verarbeitung zu bewältigen, entwickeln wir zwei Arten von strukturierten Anweisungen: Beschreibung und Differenz. Die Beschreibungsanweisung erfassen die visuellen Elemente des Referenzdiagramms, während die Differenzanweisung die Abweichungen zwischen dem Referenzdiagramm und dem generierten Diagramm charakterisiert. Diese Anweisungen transformieren visuelle Merkmale effektiv in sprachliche Darstellungen und erleichtern damit den nachfolgenden Prozess der Codetranslation. Zweitens zerlegen wir den Gesamtprozess der Diagrammgenerierung in zwei Phasen: initiale Codegenerierung und iterative Refinierung, was es ermöglicht, das endgültige Ergebnis schrittweise zu verbessern. Experimentelle Ergebnisse zeigen, dass unsere Methode im Vergleich zu anderen Methoden sowohl beim Open-Source-Modell Qwen2-VL als auch beim Closed-Source-Modell GPT-4o überlegene Leistungen erzielt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen | Paper | HyperAI

Command Palette

Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen

Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen

Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verbesserte iterative Verfeinerung für die Generierung von Chart zu Code durch strukturierte Anweisungen

Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters