StructChart: Zum Schema, Metrik und Erweiterung für die visuelle Chartverstehensanalyse

Diagramme sind in der Literatur verschiedener wissenschaftlicher Bereiche weit verbreitet und vermitteln reichhaltige Informationen, die den Lesern leicht zugänglich sind. Aktuelle Aufgaben im Zusammenhang mit Diagrammen konzentrieren sich entweder auf die Diagrammerkennung, bei der Informationen aus visuellen Diagrammen extrahiert werden, oder auf die Diagramminterpretation anhand der extrahierten Daten, z.B. in tabellarischer Form. In dieser Arbeit stellen wir StructChart vor, einen neuen Ansatz, der Strukturierte Triplettenrepräsentationen (STR) nutzt, um eine einheitliche und effiziente Methode für Diagrammerkennungs- und Interpretationsaufgaben zu erreichen. Dieser Ansatz ist allgemein auf verschiedene nachgelagerte Aufgaben anwendbar und geht über die spezifisch in vergleichbaren Arbeiten untersuchte Frage-Antwort-Aufgabe hinaus. Insbesondere reformuliert StructChart die Diagrammdaten von der tabellenartigen Form (linearisierte CSV) zu STR, was den Aufgabenschwerpunkt zwischen Diagrammerkennung und Interpretation freundlicher reduziert. Wir schlagen außerdem eine strukturorientierte Darstellungsleistungsmetrik (SCRM) vor, um die Leistung bei der Diagrammerkennung quantitativ zu bewerten. Um das Training zu erweitern, erforschen wir zudem das Potenzial großer Sprachmodelle (LLMs), um sowohl die Vielfalt des visuellen Stils als auch statistische Informationen in den Diagrammen zu erhöhen. Ausführliche Experimente zu verschiedenen diagrammbetreffenden Aufgaben belegen die Effektivität und das Potenzial eines einheitlichen Paradigmas für Diagrammerkennung und -interpretation, um den Stand der Forschung im Bereich der Diagrammverarbeitung weiter voranzubringen.