HyperAIHyperAI

Command Palette

Search for a command to run...

vor 7 Tagen

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

Hyeonsu Kang Emily Bao Anjan Goswami

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

Abstract

Vision-Language-Modelle (VLMs) werden zunehmend zur Bewertung multimodaler Inhalte, einschließlich Präsentationsfolien, eingesetzt. Ihre spezifische Verständnisfähigkeit bezüglich Folien bleibt jedoch weitgehend unerforscht {trotz ihrer wachsenden Rolle als Kritiker in agentenbasierten, modellgetriebenen Workflows}. Wir stellen VLM-SlideEval vor, einen Evaluierungsrahmen, der VLMs entlang drei Dimensionen untersucht: (1) extrahiert Elemente aus Folienbildern mit hoher Genauigkeit im Vergleich zu einer Referenz (Ground Truth); (2) Robustheit gegenüber kontrollierten Störungen in Geometrie, Stil und Text; sowie (3) höherstufiges Verständnis, beispielsweise die Wiederherstellung der erzählerischen Reihenfolge einer Präsentation aus durcheinandergewürfelten Folien. Anhand öffentlich zugänglicher Präsentationen aus Zenodo (dieser https-Link) standardisieren wir die Referenz-Metadaten zu Elementen aus PowerPoint-XML-Dateien und Live-Renderings in ein einheitliches, nachprüfbares Schema. Empirisch zeigen VLMs eine unterdurchschnittliche Leistung bei pixelgenauer Extraktion und weisen dennoch signifikante Übereinstimmung, Treue und Konsistenz unter kontrollierten Störungen auf, wobei sie bei der Verarbeitung einzelner Folieninhalte besser abschneiden. Allerdings verfügen sie nicht zuverlässig über die Fähigkeit, erzählerische Strukturen über mehrere Folien hinweg zu erfassen. Diese Ergebnisse verdeutlichen die derzeitigen Grenzen von VLMs bei der Bewertung von Präsentationsfolien und begründen den Bedarf an kalibrierten, kritikgesteuerten Evaluatoren, die in agentenbasierten Workflows eine iterative Verbesserung und Auswahl unterstützen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen | Forschungsarbeiten | HyperAI