HyperAIHyperAI
il y a 2 mois

Évaluation ouverte des modèles Vision-Langage par l'exploitation de jeux de données de classification et de leur hiérarchie sémantique

Ging, Simon ; Bravo, María A. ; Brox, Thomas
Évaluation ouverte des modèles Vision-Langage par l'exploitation de jeux de données de classification et de leur hiérarchie sémantique
Résumé

L'évaluation des modèles de vision-langage génératifs de texte est une entreprise à la fois ardue et cruciale. En abordant les limites des benchmarks existants en Visual Question Answering (VQA) et en proposant de nouvelles méthodologies d'évaluation, notre recherche vise à approfondir notre compréhension des capacités de ces modèles. Nous proposons un nouveau benchmark VQA basé sur des jeux de données bien connus en classification visuelle, qui permet une évaluation détaillée des modèles de vision-langage génératifs de texte et leur comparaison avec les modèles de vision-langage discriminatifs. Pour améliorer l'évaluation des réponses générales dans le cadre de tâches de classification fine, nous suggérons d'utiliser la hiérarchie sémantique de l'espace d'étiquettes pour poser automatiquement des questions complémentaires sur la catégorie véridique. Enfin, nous comparons les métriques traditionnelles en traitement du langage naturel (NLP) et celles basées sur les grands modèles linguistiques (LLM) pour le problème d'évaluation des prédictions du modèle à partir des réponses véridiques. Nous menons une étude d'évaluation par des humains sur laquelle nous fondons notre décision concernant la métrique finale. Nous appliquons notre benchmark à une série de modèles de vision-langage et présentons une comparaison détaillée de leurs performances en classification d'objets, d'actions et d'attributs. Nos contributions visent à établir les bases pour des évaluations plus précises et significatives, favorisant ainsi un progrès ciblé dans le domaine passionnant de la modélisation vision-langage.

Évaluation ouverte des modèles Vision-Langage par l'exploitation de jeux de données de classification et de leur hiérarchie sémantique | Articles de recherche récents | HyperAI