HyperAIHyperAI

Command Palette

Search for a command to run...

VALSE : Un benchmark indépendant des tâches pour les modèles de vision et de langage centrés sur les phénomènes linguistiques

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

Résumé

Nous proposons VALSE (Vision And Language Structured Evaluation), un nouveau benchmark conçu pour évaluer les modèles préentraînés de vision et de langage (V&L) à des fins générales en ce qui concerne leurs capacités de contextualisation visio-linguistique sur des phénomènes linguistiques spécifiques. VALSE offre une batterie de six tests couvrant diverses constructions linguistiques. La résolution de ces tests nécessite que les modèles contextualisent les phénomènes linguistiques dans la modalité visuelle, permettant ainsi des évaluations plus fines que celles réalisées jusqu'à présent. Nous avons construit VALSE en utilisant des méthodes qui soutiennent la création de fausses pistes valides, et nous rapportons les résultats d'évaluations menées sur cinq modèles V&L largement utilisés. Nos expériences suggèrent que les modèles actuels éprouvent de grandes difficultés à aborder la plupart des phénomènes. Par conséquent, nous nous attendons à ce que VALSE serve de benchmark important pour mesurer les progrès futurs des modèles préentraînés V&L sous l'angle linguistique, complétant ainsi les évaluations V&L centrées sur les tâches canoniques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp