HyperAIHyperAI

Command Palette

Search for a command to run...

MatCha: Verbesserung der visuellen Sprachvorabausbildung durch mathematisches Denken und Chart-Derendering

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Zusammenfassung

Visuelle Sprachdaten wie Diagramme, Grafiken und Infografiken sind im menschlichen Leben allgegenwärtig. Dennoch schneiden state-of-the-art Vision-Language-Modelle bei diesen Daten nicht gut ab. Wir schlagen MatCha (Mathematische Schlussfolgerung und Chart-Derendering-Vorverarbeitung) vor, um die Fähigkeiten visueller Sprachmodelle bei der gemeinsamen Modellierung von Diagrammen/Grafiken und Sprachdaten zu verbessern. Insbesondere schlagen wir mehrere Vorverarbeitungs-Aufgaben vor, die die Dekonstruktion von Grafiken und numerische Schlussfolgerungen abdecken, welche die entscheidenden Fähigkeiten in der visuellen Sprachmodellierung darstellen.Wir führen die MatCha-Vorverarbeitung ausgehend von Pix2Struct durch, einem kürzlich vorgeschlagenen Bild-zu-Text-Modell für visuelle Sprache. Auf Standard-Benchmarks wie PlotQA und ChartQA übertrifft das MatCha-Modell state-of-the-art-Methoden um bis zu fast 20 %. Wir untersuchen auch, wie gut die MatCha-Vorverarbeitung auf Bereiche wie Screenshots, Lehrbuchdiagramme und Dokumentabbildungen übertragbar ist, und beobachten insgesamt eine Verbesserung, was die Nützlichkeit der MatCha-Vorverarbeitung für breitere visuelle Sprachaufgaben bestätigt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp