Die Messung multimodaler mathematischer Schlussfolgerungen mit dem MATH-Vision-Datensatz

Neuere Fortschritte bei großen multimodalen Modellen (LMMs) haben vielversprechende Ergebnisse in der mathematischen Schlussfolgerung in visuellen Kontexten gezeigt, wobei die Modelle auf bestehenden Benchmarks wie MathVista nahezu menschliche Leistung erzielen. Dennoch beobachten wir erhebliche Einschränkungen in der Vielfalt der Fragen und dem Umfang der behandelten Themenbereiche dieser Benchmarks. Um dieses Problem anzugehen, präsentieren wir den MATH-Vision (MATH-V)-Datensatz, eine sorgfältig zusammengestellte Sammlung von 3.040 hochwertigen mathematischen Problemen mit visuellen Kontexten, die aus echten Mathematikwettbewerben stammen. Der Datensatz umfasst 16 verschiedene mathematische Disziplinen und ist in fünf Schwierigkeitsstufen unterteilt, was ihm eine umfassende und vielfältige Herausforderungslandschaft für die Bewertung der mathematischen Schlussfolgerungsfähigkeiten von LMMs verleiht. Durch umfangreiche Experimente legen wir einen bemerkenswerten Leistungsunterschied zwischen aktuellen LMMs und menschlicher Leistung auf MATH-V offen, was die Notwendigkeit weiterer Fortschritte bei LMMs unterstreicht. Darüber hinaus ermöglicht unsere detaillierte Kategorisierung eine gründliche Fehlanalyse von LMMs, die wertvolle Erkenntnisse für zukünftige Forschung und Entwicklung liefert. Das Projekt ist unter https://mathvision-cuhk.github.io verfügbar.