Command Palette
Search for a command to run...
Une Étude de la Composantialité des Grandes Modèles Visuels-linguistiques Générateurs
Une Étude de la Composantialité des Grandes Modèles Visuels-linguistiques Générateurs
Teli Ma Rong Li Junwei Liang
Résumé
Grâce au succès des grands modèles linguistiques (LLM), de nombreux modèles visuels-langagiers génératifs (GVLM) ont été développés grâce à une calibration multimodale par instruction. Toutefois, la performance des GVLM dans le raisonnement compositionnel multimodal reste largement sous-étudiée. Dans ce travail, nous examinons à la fois les métriques d'évaluation (comme VisualGPTScore) et les bancs d'essai actuels utilisés pour évaluer la compositionnalité des GVLM. Nous identifions une biais syntaxique présent dans les bancs d'essai actuels, qui est exploité grâce à la capacité linguistique des GVLM. Ce biais rend la métrique VisualGPTScore insuffisante pour évaluer adéquatement les GVLM. Pour contrer ce problème, nous introduisons tout d'abord un Score de Biais Syntaxique, utilisant des LLM pour quantifier ce biais afin de le réduire. Nous ajoutons ensuite une tâche exigeante afin d’évaluer la robustesse des GVLM face à leur propension intrinsèque à produire des réponses syntaxiquement correctes. À l’aide des jeux de données corrigés du biais et de cette nouvelle tâche, nous proposons un nouveau benchmark, nommé SyntActically DE-biased benchmark (SADE). Notre étude fournit ainsi un benchmark débarrassé de biais pour évaluer la compositionnalité des GVLM, facilitant ainsi les recherches futures dans ce domaine (code et données disponibles à l’adresse https://github.com/TeleeMa/SADE).