HyperAIHyperAI
vor 2 Monaten

PlotQA: Schlussfolgern aus wissenschaftlichen Diagrammen

Methani, Nitesh ; Ganguly, Pritha ; Khapra, Mitesh M. ; Kumar, Pratyush
PlotQA: Schlussfolgern aus wissenschaftlichen Diagrammen
Abstract

Bestehende synthetische Datensätze (FigureQA, DVQA) für die Schlussfolgerung aus Diagrammen enthalten keine Variabilität in Datenbezeichnungen, reellwertigen Daten oder komplexen Schlussfolgerungsfragen. Folglich adressieren die vorgeschlagenen Modelle für diese Datensätze das Herausforderungspotenzial der Schlussfolgerung aus Diagrammen nicht vollständig. Insbesondere gehen sie davon aus, dass die Antwort entweder aus einem kleinen, festgelegten Wortschatz stammt oder aus einer Begrenzungsbox innerhalb des Bildes extrahiert werden kann. In der Praxis ist dies jedoch eine unrealistische Annahme, da viele Fragen ein Denkprozess erfordern und daher reellwertige Antworten haben, die weder in einem kleinen, festgelegten Wortschatz noch im Bild vorkommen. In dieser Arbeit streben wir an, diese Lücke zwischen bestehenden Datensätzen und realen Diagrammen zu schließen. Speziell schlagen wir PlotQA vor, einen Datensatz mit 28,9 Millionen Frage-Antwort-Paaren über 224.377 Diagramme auf Basis von realen Datenquellen und Fragen, die auf crowd-sourced Fragevorlagen basieren. Darüber hinaus haben 80,76 % der außerhalb des Wortschatzes liegenden (OOV) Fragen in PlotQA Antworten, die nicht in einem festgelegten Wortschatz enthalten sind.Die Analyse bestehender Modelle anhand von PlotQA zeigt, dass sie mit OOV-Fragen nicht umgehen können: Ihre Gesamtgenauigkeit auf unserem Datensatz liegt im Einzelfigurbereich. Dies ist nicht überraschend, wenn man bedenkt, dass diese Modelle nicht für solche Fragen entwickelt wurden. Als Schritt hin zu einem umfassenderen Modell, das sowohl festgelegte Wortschatzfragen als auch OOV-Fragen bearbeiten kann, schlagen wir einen hybriden Ansatz vor: Spezifische Fragen werden beantwortet, indem die Antwort aus einem festgelegten Wortschatz gewählt wird oder durch Extraktion aus einer vorhergesagten Begrenzungsbox im Diagramm; andere Fragen werden mit einem Tabellen-Frage-Antwort-Modul beantwortet, das mit einer strukturierten Tabelle versorgt wird, die durch Detektion visueller Elemente aus dem Bild generiert wird.Auf dem bestehenden DVQA-Datensatz erreicht unser Modell eine Genauigkeit von 58 %, was eine erhebliche Verbesserung gegenüber der bisher höchsten gemeldeten Genauigkeit von 46 % darstellt. Auf PlotQA erreicht unser Modell eine Genauigkeit von 22,52 %, was deutlich besser ist als die Genauigkeit der bislang besten Modelle.