Chart-basiertes Schließen: Übertragung von Fähigkeiten von LLMs auf VLMs

Visionsprachmodelle (VLMs) erzielen zunehmend starke Leistungen bei multimodalen Aufgaben. Dennoch bleiben die Fähigkeiten des Schließens, insbesondere bei kleineren VLMs, begrenzt, während jene von großen Sprachmodellen (LLMs) zahlreiche Verbesserungen erfahren haben. Wir schlagen eine Technik vor, um Fähigkeiten von LLMs auf VLMs zu übertragen. Bei der kürzlich eingeführten ChartQA erreicht unsere Methode den aktuellen Stand der Technik, wenn sie auf dem PaLI3-5B-VLM von \citet{chen2023pali3} angewendet wird, und ermöglicht gleichzeitig deutlich bessere Leistungen bei PlotQA und FigureQA.Zunächst verbessern wir die Darstellung von Diagrammen, indem wir die Vortrainingsphase mit einer verbesserten Version der Diagramm-zu-Tabelle-Übersetzungsaufgabe von \citet{liu2023deplot} fortsetzen. Anschließend schlagen wir vor, einen Datensatz zu erstellen, der 20-mal größer ist als der ursprüngliche Trainingsdatensatz. Um allgemeine Schlussfolgerungsfähigkeiten und numerische Operationen zu verbessern, synthetisieren wir Schlussfolgerungsspurien unter Verwendung der Tabellendarstellung der Diagramme. Abschließend wird unser Modell unter Verwendung des Multitask-Verlustes von \citet{hsieh2023distilling} feinjustiert.Unsere Variante ChartPaLI-5B übertreffen sogar Modelle, die 10-mal größer sind, wie z.B. PaLIX-55B, ohne ein vorgeschaltetes OCR-System zu verwenden und gleichzeitig die Inferenzzeit im Vergleich zur Baseline PaLI3-5B konstant zu halten. Wenn Rationales durch eine einfache Program-of-Thought-Aufforderung \cite{chen2023program} weiter verfeinert werden, übertreffen unser Modell die kürzlich eingeführten Gemini Ultra und GPT-4V.