HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Schritt-für-Schritt-Synthese: Werkzeuge, Vorlagen und LLMs als Daten-Generatoren für reasoningbasierte Chart-VQA

{Shabnam Ghadar Peng Tang Bhavan Jasani Zhuowan Li}

Schritt-für-Schritt-Synthese: Werkzeuge, Vorlagen und LLMs als Daten-Generatoren für reasoningbasierte Chart-VQA

Abstract

Die Interpretation von Datendarstellungen wie Diagrammen und Plots erfordert die Fähigkeit, sowohl visuelle Elemente als auch numerische Informationen zu verarbeiten. Obwohl aktuelle Modelle für die visuelle Fragebeantwortung zu Diagrammen (Chart VQA) bei extraktiven Fragen stark sind, leiden sie bei komplexen Schlussfolgerungsfragen. In dieser Arbeit adressieren wir die mangelnde Schlussfolgerungsfähigkeit durch Datenaugmentation. Wir nutzen große Sprachmodelle (LLMs), die sich durch starke Schlussfolgerungsfähigkeiten auszeichnen, als automatischen Datenannotator, um Fragen-Antwort-Paare für Diagrammbilder zu generieren. Der zentrale Innovationsbeitrag unserer Methode liegt in der Strategie des „Schritt-für-Schritt-Synthetisierens“: Der auf LLMs basierende Datengenerator lernt, komplexe Fragen in eine Folge von Teilfragen (Rationales) zu zerlegen, die dann mithilfe externer Werkzeuge – beispielsweise Python – zur Ableitung der finalen Antwort verwendet werden. Dieser schrittweise Generierungsprozess wird an synthetischen Daten trainiert, die mittels einer vorlagebasierten QA-Generierungspipeline erzeugt wurden. Experimentelle Ergebnisse unterstreichen die Bedeutung des vorgeschlagenen Schritt-für-Schritt-Ansatzes. Durch das Training mit LLM-augmentierten Daten (LAMENDA) verbessern wir die Chart-VQA-Modelle signifikant und erreichen eine state-of-the-art Genauigkeit auf den Datensätzen ChartQA und PlotQA. Insbesondere steigert unsere Methode die Genauigkeit des vorherigen state-of-the-art-Ansatzes auf den menschlich verfassten Fragen im ChartQA-Datensatz – die starke Schlussfolgerungsfähigkeit erfordern – von 38 % auf 54 %. Wir hoffen, dass unsere Arbeit das Potenzial synthetischer Daten hervorhebt und die weitere Erforschung von Datenaugmentation mittels LLMs für schlussfolgerungsintensive Aufgaben anregt.

Benchmarks

BenchmarkMethodikMetriken
chart-question-answering-on-chartqaMatCha4096 + LaMenDa
1:1 Accuracy: 72.64
chart-question-answering-on-plotqaMatCha4096 + LaMenDa
1:1 Accuracy: 92.89
visual-question-answering-on-plotqa-d1MatCha4096 + LaMenDa
1:1 Accuracy: 93.94
visual-question-answering-on-plotqa-d1-1MatCha4096 + LaMenDa
1:1 Accuracy: 93.94
visual-question-answering-on-plotqa-d2MatCha4096 + LaMenDa
1:1 Accuracy: 91.84
visual-question-answering-on-plotqa-d2-1MatCha4096 + LaMenDa
1:1 Accuracy: 91.84

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp