HyperAIHyperAI

Command Palette

Search for a command to run...

Die Messung multimodaler mathematischer Schlussfolgerungen mit dem MATH-Vision-Datensatz

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

Zusammenfassung

Neuere Fortschritte bei großen multimodalen Modellen (LMMs) haben vielversprechende Ergebnisse in der mathematischen Schlussfolgerung in visuellen Kontexten gezeigt, wobei die Modelle auf bestehenden Benchmarks wie MathVista nahezu menschliche Leistung erzielen. Dennoch beobachten wir erhebliche Einschränkungen in der Vielfalt der Fragen und dem Umfang der behandelten Themenbereiche dieser Benchmarks. Um dieses Problem anzugehen, präsentieren wir den MATH-Vision (MATH-V)-Datensatz, eine sorgfältig zusammengestellte Sammlung von 3.040 hochwertigen mathematischen Problemen mit visuellen Kontexten, die aus echten Mathematikwettbewerben stammen. Der Datensatz umfasst 16 verschiedene mathematische Disziplinen und ist in fünf Schwierigkeitsstufen unterteilt, was ihm eine umfassende und vielfältige Herausforderungslandschaft für die Bewertung der mathematischen Schlussfolgerungsfähigkeiten von LMMs verleiht. Durch umfangreiche Experimente legen wir einen bemerkenswerten Leistungsunterschied zwischen aktuellen LMMs und menschlicher Leistung auf MATH-V offen, was die Notwendigkeit weiterer Fortschritte bei LMMs unterstreicht. Darüber hinaus ermöglicht unsere detaillierte Kategorisierung eine gründliche Fehlanalyse von LMMs, die wertvolle Erkenntnisse für zukünftige Forschung und Entwicklung liefert. Das Projekt ist unter https://mathvision-cuhk.github.io verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp