HyperAIHyperAI
vor 11 Tagen

Schritt-für-Schritt-Synthese: Werkzeuge, Vorlagen und LLMs als Daten-Generatoren für reasoningbasierte Chart-VQA

{Shabnam Ghadar, Peng Tang, Bhavan Jasani, Zhuowan Li}
Schritt-für-Schritt-Synthese: Werkzeuge, Vorlagen und LLMs als Daten-Generatoren für reasoningbasierte Chart-VQA
Abstract

Die Interpretation von Datendarstellungen wie Diagrammen und Plots erfordert die Fähigkeit, sowohl visuelle Elemente als auch numerische Informationen zu verarbeiten. Obwohl aktuelle Modelle für die visuelle Fragebeantwortung zu Diagrammen (Chart VQA) bei extraktiven Fragen stark sind, leiden sie bei komplexen Schlussfolgerungsfragen. In dieser Arbeit adressieren wir die mangelnde Schlussfolgerungsfähigkeit durch Datenaugmentation. Wir nutzen große Sprachmodelle (LLMs), die sich durch starke Schlussfolgerungsfähigkeiten auszeichnen, als automatischen Datenannotator, um Fragen-Antwort-Paare für Diagrammbilder zu generieren. Der zentrale Innovationsbeitrag unserer Methode liegt in der Strategie des „Schritt-für-Schritt-Synthetisierens“: Der auf LLMs basierende Datengenerator lernt, komplexe Fragen in eine Folge von Teilfragen (Rationales) zu zerlegen, die dann mithilfe externer Werkzeuge – beispielsweise Python – zur Ableitung der finalen Antwort verwendet werden. Dieser schrittweise Generierungsprozess wird an synthetischen Daten trainiert, die mittels einer vorlagebasierten QA-Generierungspipeline erzeugt wurden. Experimentelle Ergebnisse unterstreichen die Bedeutung des vorgeschlagenen Schritt-für-Schritt-Ansatzes. Durch das Training mit LLM-augmentierten Daten (LAMENDA) verbessern wir die Chart-VQA-Modelle signifikant und erreichen eine state-of-the-art Genauigkeit auf den Datensätzen ChartQA und PlotQA. Insbesondere steigert unsere Methode die Genauigkeit des vorherigen state-of-the-art-Ansatzes auf den menschlich verfassten Fragen im ChartQA-Datensatz – die starke Schlussfolgerungsfähigkeit erfordern – von 38 % auf 54 %. Wir hoffen, dass unsere Arbeit das Potenzial synthetischer Daten hervorhebt und die weitere Erforschung von Datenaugmentation mittels LLMs für schlussfolgerungsintensive Aufgaben anregt.

Schritt-für-Schritt-Synthese: Werkzeuge, Vorlagen und LLMs als Daten-Generatoren für reasoningbasierte Chart-VQA | Neueste Forschungsarbeiten | HyperAI