vor 7 Tagen

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

Details der Forschungsarbeit anzeigen Code anzeigen

Hyeonsu Kang Emily Bao Anjan Goswami

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

Abstract

Vision-Language-Modelle (VLMs) werden zunehmend zur Bewertung multimodaler Inhalte, einschließlich Präsentationsfolien, eingesetzt. Ihre spezifische Verständnisfähigkeit bezüglich Folien bleibt jedoch weitgehend unerforscht {trotz ihrer wachsenden Rolle als Kritiker in agentenbasierten, modellgetriebenen Workflows}. Wir stellen VLM-SlideEval vor, einen Evaluierungsrahmen, der VLMs entlang drei Dimensionen untersucht: (1) extrahiert Elemente aus Folienbildern mit hoher Genauigkeit im Vergleich zu einer Referenz (Ground Truth); (2) Robustheit gegenüber kontrollierten Störungen in Geometrie, Stil und Text; sowie (3) höherstufiges Verständnis, beispielsweise die Wiederherstellung der erzählerischen Reihenfolge einer Präsentation aus durcheinandergewürfelten Folien. Anhand öffentlich zugänglicher Präsentationen aus Zenodo (dieser https-Link) standardisieren wir die Referenz-Metadaten zu Elementen aus PowerPoint-XML-Dateien und Live-Renderings in ein einheitliches, nachprüfbares Schema. Empirisch zeigen VLMs eine unterdurchschnittliche Leistung bei pixelgenauer Extraktion und weisen dennoch signifikante Übereinstimmung, Treue und Konsistenz unter kontrollierten Störungen auf, wobei sie bei der Verarbeitung einzelner Folieninhalte besser abschneiden. Allerdings verfügen sie nicht zuverlässig über die Fähigkeit, erzählerische Strukturen über mehrere Folien hinweg zu erfassen. Diese Ergebnisse verdeutlichen die derzeitigen Grenzen von VLMs bei der Bewertung von Präsentationsfolien und begründen den Bedarf an kalibrierten, kritikgesteuerten Evaluatoren, die in agentenbasierten Workflows eine iterative Verbesserung und Auswahl unterstützen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VLM-SlideEval: Bewertung von VLMs hinsichtlich strukturierter Verständnisfähigkeit und Störungsempfindlichkeit in Präsentationen

Hyeonsu Kang Emily Bao Anjan Goswami

Abstract

KI mit KI entwickeln

Hyper Newsletters