Können multimodale Grundmodelle schematische Diagramme verstehen? Eine empirische Studie zur informationsorientierten QA in wissenschaftlichen Artikeln

Dieses Papier stellt MISS-QA vor, den ersten Benchmark, der speziell entwickelt wurde, um die Fähigkeit von Modellen zu bewerten, schematische Diagramme innerhalb wissenschaftlicher Literatur zu interpretieren. MISS-QA umfasst 1.500 von Experten annotierte Beispiele über 465 wissenschaftliche Publikationen. In diesem Benchmark werden den Modellen Aufgaben gestellt, bei denen sie schematische Diagramme interpretieren müssen, die Forschungsübersichten illustrieren, und darauf basierend informationsbezogene Fragen im Kontext des gesamten Papers beantworten sollen. Wir bewerten die Leistung von 18 avantgardistischen multimodalen Grundmodellen, darunter o4-mini, Gemini-2.5-Flash und Qwen2.5-VL. Unsere Analyse zeigt erhebliche Leistungsunterschiede zwischen diesen Modellen und menschlichen Experten in Bezug auf MISS-QA auf. Eine detaillierte Fehleranalyse sowie unsere Untersuchung der Modellleistung bei nicht beantwortbaren Fragen betonen zudem die Stärken und Schwächen der aktuellen Modelle und bieten wichtige Erkenntnisse zur Verbesserung der Fähigkeiten der Modelle beim Verstehen multimodaler wissenschaftlicher Literatur.