Command Palette
Search for a command to run...
VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen
Hyeonsu Kang Emily Bao Anjan Goswami

Abstract
Vision-Language-Modelle (VLMs) werden zunehmend zur Bewertung multimodaler Inhalte, einschließlich Präsentationsfolien, eingesetzt. Ihre spezifische Verständnisfähigkeit bezüglich Folien bleibt jedoch weitgehend unerforscht {trotz ihrer wachsenden Rolle als Kritiker in agentenbasierten, modellgetriebenen Workflows}. Wir stellen VLM-SlideEval vor, einen Evaluierungsrahmen, der VLMs entlang drei Dimensionen untersucht: (1) extrahiert Elemente aus Folienbildern mit hoher Genauigkeit im Vergleich zu einer Referenz (Ground Truth); (2) Robustheit gegenüber kontrollierten Störungen in Geometrie, Stil und Text; sowie (3) höherstufiges Verständnis, beispielsweise die Wiederherstellung der erzählerischen Reihenfolge einer Präsentation aus durcheinandergewürfelten Folien. Anhand öffentlich zugänglicher Präsentationen aus Zenodo (dieser https-Link) standardisieren wir die Referenz-Metadaten zu Elementen aus PowerPoint-XML-Dateien und Live-Renderings in ein einheitliches, nachprüfbares Schema. Empirisch zeigen VLMs eine unterdurchschnittliche Leistung bei pixelgenauer Extraktion und weisen dennoch signifikante Übereinstimmung, Treue und Konsistenz unter kontrollierten Störungen auf, wobei sie bei der Verarbeitung einzelner Folieninhalte besser abschneiden. Allerdings verfügen sie nicht zuverlässig über die Fähigkeit, erzählerische Strukturen über mehrere Folien hinweg zu erfassen. Diese Ergebnisse verdeutlichen die derzeitigen Grenzen von VLMs bei der Bewertung von Präsentationsfolien und begründen den Bedarf an kalibrierten, kritikgesteuerten Evaluatoren, die in agentenbasierten Workflows eine iterative Verbesserung und Auswahl unterstützen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.