HyperAIHyperAI
vor 2 Monaten

FigureQA: Ein annotiertes Figurendatensatz für visuelle Schlussfolgerung

Kahou, Samira Ebrahimi ; Michalski, Vincent ; Atkinson, Adam ; Kadar, Akos ; Trischler, Adam ; Bengio, Yoshua
FigureQA: Ein annotiertes Figurendatensatz für visuelle Schlussfolgerung
Abstract

Wir stellen FigureQA vor, ein Korpus für visuelle Inferenz, der über eine Million frage-antwort-Paare umfasst, die auf über 100.000 Bildern basieren. Die Bilder sind synthetische, wissenschaftlich gestylte Abbildungen aus fünf Kategorien: Liniendiagramme, Punktliniendiagramme, vertikale und horizontale Balkendiagramme sowie Kreisdiagramme. Unser Inferenztask wird durch die Erzeugung von Fragen aus 15 Vorlagen formuliert; diese Fragen betreffen verschiedene Beziehungen zwischen den Diagramm-Elementen und untersuchen Merkmale wie das Maximum, das Minimum, die Fläche unter der Kurve (area-under-the-curve), die Glattheit und den Schnittpunkt. Oft ist es notwendig, sich auf mehrere Diagramm-Elemente zu beziehen und Informationen zu synthetisieren, die räumlich über eine Abbildung verteilt sind. Um das Training von maschinellen Lernsystemen zu erleichtern, enthält der Korpus auch Nebendaten, die zur Formulierung von Hilfszielen verwendet werden können. Insbesondere stellen wir die numerischen Daten bereit, die zum Generieren jedes Diagramms verwendet wurden, sowie Bounding-Box-Annotierungen für alle Diagramm-Elemente. Wir untersuchen den vorgeschlagenen Task der visuellen Inferenz durch das Training mehrerer Modelle, darunter das kürzlich vorgeschlagene Relation Network als starke Baseline. Vorläufige Ergebnisse deuten darauf hin, dass der Task eine erhebliche Herausforderung für maschinelles Lernen darstellt. Wir sehen FigureQA als ersten Schritt zur Entwicklung von Modellen an, die in der Lage sind, Muster aus visuellen Darstellungen von Daten intuitiv zu erkennen.