vor 7 Monaten

Zusammenfassung

Die Interpretation von Datendarstellungen wie Diagrammen und Plots erfordert die Fähigkeit, sowohl visuelle Elemente als auch numerische Informationen zu verarbeiten. Obwohl aktuelle Modelle für die visuelle Fragebeantwortung zu Diagrammen (Chart VQA) bei extraktiven Fragen stark sind, leiden sie bei komplexen Schlussfolgerungsfragen. In dieser Arbeit adressieren wir die mangelnde Schlussfolgerungsfähigkeit durch Datenaugmentation. Wir nutzen große Sprachmodelle (LLMs), die sich durch starke Schlussfolgerungsfähigkeiten auszeichnen, als automatischen Datenannotator, um Fragen-Antwort-Paare für Diagrammbilder zu generieren. Der zentrale Innovationsbeitrag unserer Methode liegt in der Strategie des „Schritt-für-Schritt-Synthetisierens“: Der auf LLMs basierende Datengenerator lernt, komplexe Fragen in eine Folge von Teilfragen (Rationales) zu zerlegen, die dann mithilfe externer Werkzeuge – beispielsweise Python – zur Ableitung der finalen Antwort verwendet werden. Dieser schrittweise Generierungsprozess wird an synthetischen Daten trainiert, die mittels einer vorlagebasierten QA-Generierungspipeline erzeugt wurden. Experimentelle Ergebnisse unterstreichen die Bedeutung des vorgeschlagenen Schritt-für-Schritt-Ansatzes. Durch das Training mit LLM-augmentierten Daten (LAMENDA) verbessern wir die Chart-VQA-Modelle signifikant und erreichen eine state-of-the-art Genauigkeit auf den Datensätzen ChartQA und PlotQA. Insbesondere steigert unsere Methode die Genauigkeit des vorherigen state-of-the-art-Ansatzes auf den menschlich verfassten Fragen im ChartQA-Datensatz – die starke Schlussfolgerungsfähigkeit erfordern – von 38 % auf 54 %. Wir hoffen, dass unsere Arbeit das Potenzial synthetischer Daten hervorhebt und die weitere Erforschung von Datenaugmentation mittels LLMs für schlussfolgerungsintensive Aufgaben anregt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Shabnam Ghadar Peng Tang Bhavan Jasani Zhuowan Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Visuelle Fragebeantwortung

Shabnam Ghadar Peng Tang Bhavan Jasani Zhuowan Li

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Schritt-für-Schritt-Synthese: Werkzeuge, Vorlagen und LLMs als Daten-Generatoren für reasoningbasierte Chart-VQA

Shabnam Ghadar Peng Tang Bhavan Jasani Zhuowan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Schritt-für-Schritt-Synthese: Werkzeuge, Vorlagen und LLMs als Daten-Generatoren für reasoningbasierte Chart-VQA

Shabnam Ghadar Peng Tang Bhavan Jasani Zhuowan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Schritt-für-Schritt-Synthese: Werkzeuge, Vorlagen und LLMs als Daten-Generatoren für reasoningbasierte Chart-VQA

Shabnam Ghadar Peng Tang Bhavan Jasani Zhuowan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters