HyperAIHyperAI

Command Palette

Search for a command to run...

DePlot: Einmaliges visuelles Sprachverständnis durch die Übersetzung von Diagrammen in Tabellen

Fangyu Liu‡‡∗§ Julian Martin Eisenschlos∗∗ Francesco Piccinno∗ Syrine Krichene∗ Chenxi Pang∗ Kenton Lee∗ Mandar Joshi∗ Wenhu Chen∗ Nigel Collier∗ Yasemin Altun∗

Zusammenfassung

Visuelle Sprache wie Diagramme und Grafiken ist im menschlichen Leben allgegenwärtig.Das Verstehen von Diagrammen und Grafiken erfordert starke Schlussfolgerungsfähigkeiten. Bislang führende (SOTA) Modelle benötigen mindestens zehntausende Trainingsbeispiele, und ihre Fähigkeiten zur Schlussfolgerung sind noch stark begrenzt, insbesondere bei komplexen, menschlich verfassten Anfragen. Dieses Papier präsentiert die erste Lösung für das visuelle Sprachverstehen in einem One-Shot-Ansatz. Wir gliedern die Herausforderung des visuellen Sprachverstehens in zwei Schritte: (1) die Übersetzung von Diagramm zu Text und (2) das Schlussfolgern über den übersetzten Text. Der Kern dieses Ansatzes ist ein Modul zur Modalitätskonvertierung, genannt DePlot, das ein Bild eines Diagramms oder einer Grafik in eine linearisierte Tabelle übersetzt. Das Ausgabeformat von DePlot kann dann direkt verwendet werden, um ein vortrainiertes großes Sprachmodell (LLM) anzusteuern und dessen Few-Shot-Schlussfolgerungsfähigkeiten zu nutzen. Um DePlot zu erhalten, standardisieren wir die Aufgabe der Übersetzung von Diagramm zu Tabelle durch die Einführung vereinheitlichter Aufgabenformate und Metriken und trainieren DePlot end-to-end an dieser Aufgabe. DePlot kann dann als fertige Komponente zusammen mit LLMs in einem Plug-and-Play-Verfahren eingesetzt werden. Im Vergleich zu einem auf mehr als 28.000 Datenpunkten feintuneierten SOTA-Modell erreicht DePlot+LLM bei menschlich verfassten Anfragen aus der Aufgabe des Chart-QA mit nur einem Beispielanstoß eine Verbesserung von 24,0 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp