HyperAIHyperAI

Command Palette

Search for a command to run...

Une Étude de la Composantialité des Grandes Modèles Visuels-linguistiques Générateurs

Teli Ma Rong Li Junwei Liang

Résumé

Grâce au succès des grands modèles linguistiques (LLM), de nombreux modèles visuels-langagiers génératifs (GVLM) ont été développés grâce à une calibration multimodale par instruction. Toutefois, la performance des GVLM dans le raisonnement compositionnel multimodal reste largement sous-étudiée. Dans ce travail, nous examinons à la fois les métriques d'évaluation (comme VisualGPTScore) et les bancs d'essai actuels utilisés pour évaluer la compositionnalité des GVLM. Nous identifions une biais syntaxique présent dans les bancs d'essai actuels, qui est exploité grâce à la capacité linguistique des GVLM. Ce biais rend la métrique VisualGPTScore insuffisante pour évaluer adéquatement les GVLM. Pour contrer ce problème, nous introduisons tout d'abord un Score de Biais Syntaxique, utilisant des LLM pour quantifier ce biais afin de le réduire. Nous ajoutons ensuite une tâche exigeante afin d’évaluer la robustesse des GVLM face à leur propension intrinsèque à produire des réponses syntaxiquement correctes. À l’aide des jeux de données corrigés du biais et de cette nouvelle tâche, nous proposons un nouveau benchmark, nommé SyntActically DE-biased benchmark (SADE). Notre étude fournit ainsi un benchmark débarrassé de biais pour évaluer la compositionnalité des GVLM, facilitant ainsi les recherches futures dans ce domaine (code et données disponibles à l’adresse https://github.com/TeleeMa/SADE).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Une Étude de la Composantialité des Grandes Modèles Visuels-linguistiques Générateurs | Articles | HyperAI