Command Palette
Search for a command to run...
FigureQA: Ein annotiertes Abbildungsdatensatz für visuelles Schlussfolgern
FigureQA: Ein annotiertes Abbildungsdatensatz für visuelles Schlussfolgern
Zusammenfassung
Wir stellen FigureQA vor, eine Korpus für visuelle Schlussfolgerung mit über einer Million Frage-Antwort-Paare, die auf über 100.000 Bildern basieren. Die Bilder sind synthetisch erstellte, wissenschaftlich ausgerichtete Abbildungen aus fünf Kategorien: Liniendiagramme, Punktdiagramme, vertikale und horizontale Säulendiagramme sowie Kreisdiagramme. Wir formulieren unsere Schlussfolgerungsaufgabe durch die Generierung von Fragen anhand von 15 Vorlagen; die Fragen beziehen sich auf verschiedene Beziehungen zwischen Diagrammelementen und untersuchen Merkmale wie Maximum, Minimum, Fläche unter der Kurve, Glätte und Schnittpunkte. Um solche Fragen zu beantworten, sind oft Bezugnahmen auf mehrere Diagrammelemente sowie die Synthese von Informationen erforderlich, die räumlich über das gesamte Diagramm verteilt sind. Um die Schulung von maschinellen Lernsystemen zu erleichtern, enthält das Korpus zudem Zusatzdaten, die zur Formulierung von Hilfszielen genutzt werden können. Insbesondere liefern wir die numerischen Daten, die zur Erzeugung jedes Diagramms verwendet wurden, sowie Bounding-Box-Anmerkungen für alle Diagrammelemente. Wir untersuchen die vorgeschlagene visuelle Schlussfolgerungsaufgabe durch die Schulung mehrerer Modelle, darunter das kürzlich vorgeschlagene Relation Network als starke Referenzmodell. Erste Ergebnisse deuten darauf hin, dass die Aufgabe eine erhebliche Herausforderung für maschinelles Lernen darstellt. Wir sehen FigureQA als ersten Schritt hin zu Modellen, die intuitiv Muster aus visuellen Darstellungen von Daten erkennen können.