DePlot: Einmaliges visuelles Sprachverständnis durch die Übersetzung von Diagrammen in Tabellen

Visuelle Sprache wie Diagramme und Grafiken ist im menschlichen Leben allgegenwärtig.Das Verstehen von Diagrammen und Grafiken erfordert starke Schlussfolgerungsfähigkeiten. Bislang führende (SOTA) Modelle benötigen mindestens zehntausende Trainingsbeispiele, und ihre Fähigkeiten zur Schlussfolgerung sind noch stark begrenzt, insbesondere bei komplexen, menschlich verfassten Anfragen. Dieses Papier präsentiert die erste Lösung für das visuelle Sprachverstehen in einem One-Shot-Ansatz. Wir gliedern die Herausforderung des visuellen Sprachverstehens in zwei Schritte: (1) die Übersetzung von Diagramm zu Text und (2) das Schlussfolgern über den übersetzten Text. Der Kern dieses Ansatzes ist ein Modul zur Modalitätskonvertierung, genannt DePlot, das ein Bild eines Diagramms oder einer Grafik in eine linearisierte Tabelle übersetzt. Das Ausgabeformat von DePlot kann dann direkt verwendet werden, um ein vortrainiertes großes Sprachmodell (LLM) anzusteuern und dessen Few-Shot-Schlussfolgerungsfähigkeiten zu nutzen. Um DePlot zu erhalten, standardisieren wir die Aufgabe der Übersetzung von Diagramm zu Tabelle durch die Einführung vereinheitlichter Aufgabenformate und Metriken und trainieren DePlot end-to-end an dieser Aufgabe. DePlot kann dann als fertige Komponente zusammen mit LLMs in einem Plug-and-Play-Verfahren eingesetzt werden. Im Vergleich zu einem auf mehr als 28.000 Datenpunkten feintuneierten SOTA-Modell erreicht DePlot+LLM bei menschlich verfassten Anfragen aus der Aufgabe des Chart-QA mit nur einem Beispielanstoß eine Verbesserung von 24,0 %.