Command Palette
Search for a command to run...
MatCha: Verbesserung der visuellen Sprachvorabausbildung durch mathematisches Denken und Chart-Derendering
MatCha: Verbesserung der visuellen Sprachvorabausbildung durch mathematisches Denken und Chart-Derendering
Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos
Zusammenfassung
Visuelle Sprachdaten wie Diagramme, Grafiken und Infografiken sind im menschlichen Leben allgegenwärtig. Dennoch schneiden state-of-the-art Vision-Language-Modelle bei diesen Daten nicht gut ab. Wir schlagen MatCha (Mathematische Schlussfolgerung und Chart-Derendering-Vorverarbeitung) vor, um die Fähigkeiten visueller Sprachmodelle bei der gemeinsamen Modellierung von Diagrammen/Grafiken und Sprachdaten zu verbessern. Insbesondere schlagen wir mehrere Vorverarbeitungs-Aufgaben vor, die die Dekonstruktion von Grafiken und numerische Schlussfolgerungen abdecken, welche die entscheidenden Fähigkeiten in der visuellen Sprachmodellierung darstellen.Wir führen die MatCha-Vorverarbeitung ausgehend von Pix2Struct durch, einem kürzlich vorgeschlagenen Bild-zu-Text-Modell für visuelle Sprache. Auf Standard-Benchmarks wie PlotQA und ChartQA übertrifft das MatCha-Modell state-of-the-art-Methoden um bis zu fast 20 %. Wir untersuchen auch, wie gut die MatCha-Vorverarbeitung auf Bereiche wie Screenshots, Lehrbuchdiagramme und Dokumentabbildungen übertragbar ist, und beobachten insgesamt eine Verbesserung, was die Nützlichkeit der MatCha-Vorverarbeitung für breitere visuelle Sprachaufgaben bestätigt.