vor 8 Monaten

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Zusammenfassung

Visuelle Sprachdaten wie Diagramme, Grafiken und Infografiken sind im menschlichen Leben allgegenwärtig. Dennoch schneiden state-of-the-art Vision-Language-Modelle bei diesen Daten nicht gut ab. Wir schlagen MatCha (Mathematische Schlussfolgerung und Chart-Derendering-Vorverarbeitung) vor, um die Fähigkeiten visueller Sprachmodelle bei der gemeinsamen Modellierung von Diagrammen/Grafiken und Sprachdaten zu verbessern. Insbesondere schlagen wir mehrere Vorverarbeitungs-Aufgaben vor, die die Dekonstruktion von Grafiken und numerische Schlussfolgerungen abdecken, welche die entscheidenden Fähigkeiten in der visuellen Sprachmodellierung darstellen.Wir führen die MatCha-Vorverarbeitung ausgehend von Pix2Struct durch, einem kürzlich vorgeschlagenen Bild-zu-Text-Modell für visuelle Sprache. Auf Standard-Benchmarks wie PlotQA und ChartQA übertrifft das MatCha-Modell state-of-the-art-Methoden um bis zu fast 20 %. Wir untersuchen auch, wie gut die MatCha-Vorverarbeitung auf Bereiche wie Screenshots, Lehrbuchdiagramme und Dokumentabbildungen übertragbar ist, und beobachten insgesamt eine Verbesserung, was die Nützlichkeit der MatCha-Vorverarbeitung für breitere visuelle Sprachaufgaben bestätigt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Visuelle Fragebeantwortung

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MatCha: Verbesserung der visuellen Sprachvorabausbildung durch mathematisches Denken und Chart-Derendering

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MatCha: Verbesserung der visuellen Sprachvorabausbildung durch mathematisches Denken und Chart-Derendering

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MatCha: Verbesserung der visuellen Sprachvorabausbildung durch mathematisches Denken und Chart-Derendering

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters