MatCha: Verbesserung der visuellen Sprachvorabausbildung durch mathematisches Denken und Chart-Derendering

Visuelle Sprachdaten wie Diagramme, Grafiken und Infografiken sind im menschlichen Leben allgegenwärtig. Dennoch schneiden state-of-the-art Vision-Language-Modelle bei diesen Daten nicht gut ab. Wir schlagen MatCha (Mathematische Schlussfolgerung und Chart-Derendering-Vorverarbeitung) vor, um die Fähigkeiten visueller Sprachmodelle bei der gemeinsamen Modellierung von Diagrammen/Grafiken und Sprachdaten zu verbessern. Insbesondere schlagen wir mehrere Vorverarbeitungs-Aufgaben vor, die die Dekonstruktion von Grafiken und numerische Schlussfolgerungen abdecken, welche die entscheidenden Fähigkeiten in der visuellen Sprachmodellierung darstellen.Wir führen die MatCha-Vorverarbeitung ausgehend von Pix2Struct durch, einem kürzlich vorgeschlagenen Bild-zu-Text-Modell für visuelle Sprache. Auf Standard-Benchmarks wie PlotQA und ChartQA übertrifft das MatCha-Modell state-of-the-art-Methoden um bis zu fast 20 %. Wir untersuchen auch, wie gut die MatCha-Vorverarbeitung auf Bereiche wie Screenshots, Lehrbuchdiagramme und Dokumentabbildungen übertragbar ist, und beobachten insgesamt eine Verbesserung, was die Nützlichkeit der MatCha-Vorverarbeitung für breitere visuelle Sprachaufgaben bestätigt.