il y a 3 mois

Résumé

Les modèles vision-langage (VLM) sont de plus en plus utilisés pour évaluer des contenus multimodaux, y compris des diapositives de présentation, mais leur compréhension spécifique aux diapositives reste largement sous-exploree {malgré leur rôle croissant en tant qu’examinateurs dans des pipelines agencés autour des modèles}. Nous introduisons VLM-SlideEval, un cadre d’évaluation qui évalue les VLM selon trois axes : (1) l’extraction au niveau des éléments à partir d’images de diapositives, alignée avec une vérité terrain ; (2) la robustesse face à des perturbations contrôlées en géométrie, en style et en texte ; et (3) la compréhension de haut niveau, telle que la reconstruction de l’ordre narratif d’un ensemble de diapositives après les avoir mélangées. À l’aide de jeux de diapositives disponibles publiquement sur Zenodo (ce lien https URL), nous standardisons les métadonnées de vérité terrain issues des fichiers PowerPoint au format XML et des rendus dynamiques dans un schéma unifié et vérifiable. Expérimentalement, les VLM se révèlent inférieurs à la tâche d’extraction précise au niveau des pixels, tout en montrant un accord, une fidélité et une cohérence non négligeables face à des perturbations contrôlées, tout en se comportant mieux sur la compréhension du contenu d’une seule diapositive ; toutefois, ils ne parviennent pas de manière fiable à capturer la structure narrative à travers plusieurs diapositives. Ces résultats mettent en évidence les limites actuelles des VLM pour l’évaluation des diapositives et incitent à développer des évaluateurs calibrés intégrant un critique dans la boucle, capables de piloter une révision itérative et une sélection optimisée dans les pipelines agencés.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Compréhension De Document

Benchmarks

Multimodal

Infrastructure D'ia

Traitement Du Langage Naturel

Multimodal

Tâche

Hyeonsu Kang Emily Bao Anjan Goswami

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Compréhension De Document

Benchmarks

Multimodal

Infrastructure D'ia

Traitement Du Langage Naturel

Multimodal

Tâche

Hyeonsu Kang Emily Bao Anjan Goswami

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

VLM-SlideEval : Évaluation des VLM sur la compréhension structurée et la sensibilité aux perturbations dans les présentations PowerPoint | Articles | HyperAI

Command Palette

VLM-SlideEval : Évaluation des VLM sur la compréhension structurée et la sensibilité aux perturbations dans les présentations PowerPoint

Hyeonsu Kang Emily Bao Anjan Goswami

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VLM-SlideEval : Évaluation des VLM sur la compréhension structurée et la sensibilité aux perturbations dans les présentations PowerPoint

Hyeonsu Kang Emily Bao Anjan Goswami

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VLM-SlideEval : Évaluation des VLM sur la compréhension structurée et la sensibilité aux perturbations dans les présentations PowerPoint

Hyeonsu Kang Emily Bao Anjan Goswami

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters