HyperAIHyperAI

Command Palette

Search for a command to run...

Können multimodale Grundmodelle schematische Diagramme verstehen? Eine empirische Studie zur informationsorientierten QA in wissenschaftlichen Artikeln

Yilun Zhao Chengye Wang Chuhan Li Arman Cohan

Zusammenfassung

Dieses Papier stellt MISS-QA vor, den ersten Benchmark, der speziell entwickelt wurde, um die Fähigkeit von Modellen zu bewerten, schematische Diagramme innerhalb wissenschaftlicher Literatur zu interpretieren. MISS-QA umfasst 1.500 von Experten annotierte Beispiele über 465 wissenschaftliche Publikationen. In diesem Benchmark werden den Modellen Aufgaben gestellt, bei denen sie schematische Diagramme interpretieren müssen, die Forschungsübersichten illustrieren, und darauf basierend informationsbezogene Fragen im Kontext des gesamten Papers beantworten sollen. Wir bewerten die Leistung von 18 avantgardistischen multimodalen Grundmodellen, darunter o4-mini, Gemini-2.5-Flash und Qwen2.5-VL. Unsere Analyse zeigt erhebliche Leistungsunterschiede zwischen diesen Modellen und menschlichen Experten in Bezug auf MISS-QA auf. Eine detaillierte Fehleranalyse sowie unsere Untersuchung der Modellleistung bei nicht beantwortbaren Fragen betonen zudem die Stärken und Schwächen der aktuellen Modelle und bieten wichtige Erkenntnisse zur Verbesserung der Fähigkeiten der Modelle beim Verstehen multimodaler wissenschaftlicher Literatur.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Können multimodale Grundmodelle schematische Diagramme verstehen? Eine empirische Studie zur informationsorientierten QA in wissenschaftlichen Artikeln | Paper | HyperAI