Command Palette
Search for a command to run...
VLM-SlideEval : Évaluation des VLM sur la compréhension structurée et la sensibilité aux perturbations dans les présentations PowerPoint
Hyeonsu Kang Emily Bao Anjan Goswami

Résumé
Les modèles vision-langage (VLM) sont de plus en plus utilisés pour évaluer des contenus multimodaux, y compris des diapositives de présentation, mais leur compréhension spécifique aux diapositives reste largement sous-exploree {malgré leur rôle croissant en tant qu’examinateurs dans des pipelines agencés autour des modèles}. Nous introduisons VLM-SlideEval, un cadre d’évaluation qui évalue les VLM selon trois axes : (1) l’extraction au niveau des éléments à partir d’images de diapositives, alignée avec une vérité terrain ; (2) la robustesse face à des perturbations contrôlées en géométrie, en style et en texte ; et (3) la compréhension de haut niveau, telle que la reconstruction de l’ordre narratif d’un ensemble de diapositives après les avoir mélangées. À l’aide de jeux de diapositives disponibles publiquement sur Zenodo (ce lien https URL), nous standardisons les métadonnées de vérité terrain issues des fichiers PowerPoint au format XML et des rendus dynamiques dans un schéma unifié et vérifiable. Expérimentalement, les VLM se révèlent inférieurs à la tâche d’extraction précise au niveau des pixels, tout en montrant un accord, une fidélité et une cohérence non négligeables face à des perturbations contrôlées, tout en se comportant mieux sur la compréhension du contenu d’une seule diapositive ; toutefois, ils ne parviennent pas de manière fiable à capturer la structure narrative à travers plusieurs diapositives. Ces résultats mettent en évidence les limites actuelles des VLM pour l’évaluation des diapositives et incitent à développer des évaluateurs calibrés intégrant un critique dans la boucle, capables de piloter une révision itérative et une sélection optimisée dans les pipelines agencés.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.