GITQA-Datensatz Zum Beantworten Von Fragen Und Antworten Zum Multimodalen Graph-Reasoning
Datum
Veröffentlichungs-URL
Kategorien

GITQA ist der erste Datensatz zum Beantworten von Fragen zum logisch denkenden Denken, der visuelle Graphen enthält und von der Hong Kong University of Science and Technology und der Southern University of Science and Technology durch das Zeichnen von Graphstrukturen in visuelle Bilder unterschiedlicher Stile erstellt wurde. Der Datensatz enthält mehr als 423.000 Frage-Antwort-Instanzen, von denen jede entsprechende Grafik-Text-Bild-Informationen und das entsprechende Frage-Antwort-Paar enthält.
Der Datensatz enthält zwei Versionen: GITQA-Base und GITQA-Aug, wobei GITQA-Base nur visuelle Bilder eines einzigen Stils enthält. GITQA-Aug ist noch reicher. Es führt verschiedene Datenerweiterungsprozesse am visuellen Diagramm durch, darunter das Ändern des Layouts, der Form der Punkte, der Breite der Kanten und des Stils der Punkte, und bietet so vielfältigere visuelle Diagrammdarstellungen. Dieser Datensatz kann verwendet werden, um die Leistung von textbeschreibungsbasiertem LLM und multimodalem MLLM bei Graph-Reasoning-Aufgaben zu bewerten und die Auswirkungen visueller Informationen auf das Graph-Reasoning zu untersuchen.