ChartQA: Eine Benchmarksdatensammlung für die Beantwortung von Fragen zu Diagrammen mit visueller und logischer Schlussfolgerung

Diagramme sind sehr beliebt für die Analyse von Daten. Bei der Untersuchung von Diagrammen stellen Menschen oft eine Vielzahl komplexer Fragen, die mehrere logische und arithmetische Operationen beinhalten. Sie beziehen sich auch häufig auf visuelle Merkmale des Diagramms in ihren Fragen. Die meisten bestehenden Datensätze konzentrieren sich jedoch nicht auf solche komplexen Fragestellungen, da ihre Fragen vordefinierten Vorlagen folgen und die Antworten aus einem festen Wortschatz stammen. In dieser Arbeit präsentieren wir einen umfangreichen Benchmark, der 9.600 menschlich verfasste Fragen sowie 23.100 aus menschlichen Zusammenfassungen generierte Fragen abdeckt. Um die einzigartigen Herausforderungen unseres Benchmarks zu bewältigen, bei denen es um visuelles und logisches Schließen über Diagramme geht, stellen wir zwei transformerbasierte Modelle vor, die visuelle Merkmale und die Datenmatrix des Diagramms auf eine einheitliche Weise kombinieren, um Fragen zu beantworten. Obwohl unsere Modelle sowohl auf den bisherigen Datensätzen als auch auf unserem Benchmark den Stand der Technik erreichen, zeigt die Evaluierung auch mehrere Herausforderungen bei der Beantwortung komplexer Fragestellungen auf.