IconQA: Eine neue Benchmarks für die Verständnis abstrakter Diagramme und visuelle Sprachverarbeitung

Aktuelle Aufgaben des visuellen Fragebeantwortens (VQA) konzentrieren sich hauptsächlich auf das Beantworten von menschlich annotierten Fragen zu natürlichen Bildern. Allerdings sind abstrakte Diagramme mit semantischer Reichhaltigkeit im Bereich der visuellen Verständnis- und Schlussfolgerungsforschung noch immer unterrepräsentiert. In dieser Arbeit stellen wir eine neue Herausforderung vor: Icon Question Answering (IconQA), deren Ziel es ist, eine Frage im Kontext eines Icons zu beantworten. Wir veröffentlichen IconQA, einen umfangreichen Datensatz, der 107.439 Fragen und drei Unter-Aufgaben enthält: Mehrfachbildauswahl, Mehrfachtextauswahl und Lückenfüllen. Der IconQA-Datensatz wurde durch realweltliche Diagrammwortprobleme inspiriert, die die Bedeutung des Verständnisses abstrakter Diagramme und umfassender kognitiver Schlussfolgerungen hervorheben. Daher erfordert IconQA nicht nur Wahrnehmungsfähigkeiten wie Objekterkennung und Textverstehen, sondern auch vielfältige kognitive Schlussfolgerungsfähigkeiten, wie geometrische Schlussfolgerungen, alltägliche Schlussfolgerungen (commonsense reasoning) und arithmetische Schlussfolgerungen. Um potenziellen IconQA-Modellen das Erlernen semantischer Repräsentationen für Icons zu erleichtern, veröffentlichen wir zudem den Icon-Datensatz Icon645, der 645.687 farbige Icons aus 377 Klassen enthält. Wir führen umfangreiche Nutzerstudien und blinde Experimente durch und reproduzieren eine Vielzahl fortschrittlicher VQA-Methoden, um die IconQA-Aufgabe zu bewerten. Des Weiteren entwickeln wir ein starkes Baseline-Modell für IconQA namens Patch-TRM, das einen pyramidenförmigen multimodalen Transformer verwendet, dessen Eingabediagramm-Einbettungen auf dem Icon-Datensatz vortrainiert wurden. Die Datensätze IconQA und Icon645 sind unter https://iconqa.github.io verfügbar.