HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

VLM-SlideEval : Évaluation des VLM sur la compréhension structurée et la sensibilité aux perturbations dans les présentations PowerPoint

Hyeonsu Kang Emily Bao Anjan Goswami

VLM-SlideEval : Évaluation des VLM sur la compréhension structurée et la sensibilité aux perturbations dans les présentations PowerPoint

Résumé

Les modèles vision-langage (VLM) sont de plus en plus utilisés pour évaluer des contenus multimodaux, y compris des diapositives de présentation, mais leur compréhension spécifique aux diapositives reste largement sous-exploree {malgré leur rôle croissant en tant qu’examinateurs dans des pipelines agencés autour des modèles}. Nous introduisons VLM-SlideEval, un cadre d’évaluation qui évalue les VLM selon trois axes : (1) l’extraction au niveau des éléments à partir d’images de diapositives, alignée avec une vérité terrain ; (2) la robustesse face à des perturbations contrôlées en géométrie, en style et en texte ; et (3) la compréhension de haut niveau, telle que la reconstruction de l’ordre narratif d’un ensemble de diapositives après les avoir mélangées. À l’aide de jeux de diapositives disponibles publiquement sur Zenodo (ce lien https URL), nous standardisons les métadonnées de vérité terrain issues des fichiers PowerPoint au format XML et des rendus dynamiques dans un schéma unifié et vérifiable. Expérimentalement, les VLM se révèlent inférieurs à la tâche d’extraction précise au niveau des pixels, tout en montrant un accord, une fidélité et une cohérence non négligeables face à des perturbations contrôlées, tout en se comportant mieux sur la compréhension du contenu d’une seule diapositive ; toutefois, ils ne parviennent pas de manière fiable à capturer la structure narrative à travers plusieurs diapositives. Ces résultats mettent en évidence les limites actuelles des VLM pour l’évaluation des diapositives et incitent à développer des évaluateurs calibrés intégrant un critique dans la boucle, capables de piloter une révision itérative et une sélection optimisée dans les pipelines agencés.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VLM-SlideEval : Évaluation des VLM sur la compréhension structurée et la sensibilité aux perturbations dans les présentations PowerPoint | Articles de recherche | HyperAI