ChartQA: Ein Benchmark-Datensatz Zur Beantwortung Von Fragen Zu Diagrammen Mithilfe Visueller Und Logischer Schlussfolgerungen
Datum
Größe
Veröffentlichungs-URL

Datensatzhintergrund
Diagramme erfreuen sich bei der Datenanalyse großer Beliebtheit. Beim Untersuchen von Graphen stellen die Leute oft eine Reihe komplexer Denkfragen, die mehrere logische und arithmetische Operationen beinhalten. Sie erwähnten in ihren Fragen auch häufig die visuellen Merkmale der Grafiken. Die meisten vorhandenen Datensätze konzentrieren sich jedoch nicht auf derart komplexe Denkprobleme, da ihre Fragen auf Vorlagen basieren und die Antworten aus einem festen Vokabular stammen.
Einführung in den Datensatz
In dieser Arbeit schlug das Forschungsteam einen groß angelegten Benchmark namens ChartQA vor, der 9,6.000 von Menschen geschriebene Fragen und 23,1.000 aus von Menschen geschriebenen Diagrammzusammenfassungen generierte Fragen umfasst.
Das Chart Question Answering-System (ChartQA) sagt die Antwort durch Eingabe eines Diagramms und einer Frage in natürlicher Sprache voraus. Anders als bei textbasierter Qualitätssicherung enthalten die Diagramme in ChartQA visuelle Darstellungen, und die Leser achten möglicherweise stärker auf einige hervorstechende Merkmale wie Trends, Ausreißer usw. Der Datensatz enthält reale Grafiken und manuell geschriebene Frage-Antwort-Paare.
ChartQA unterscheidet sich in zweierlei Hinsicht von früheren Datensätzen:
Fragetyp: von Menschen verfasst vs. vorlagenbasiert
Diagrammquelle: reale Welt vs. mit einem Tool erstellt
Datenerfassung
Datenerfassung und -aufbereitung
Entnommen aus vier Grafik-Websites mit unterschiedlichen Themen und Stilen. Der gesamte Inhalt der Website, der die zugrunde liegende Datentabelle enthält, kann gecrawlt werden.
Datenannotation
Es gibt zwei Hauptanmerkungsmethoden:
Verwenden Sie AMT (Amazon Mechanical Turk), um manuell geschriebene QA-Paare zu sammeln.
Von Menschen markierte kombinatorische Fragen (die mindestens zwei Operationen enthalten) und visuelle Fragen.
Generieren Sie QA-Paare aus von Menschen geschriebenen Paaren von Statista.