HyperAIHyperAI

Command Palette

Search for a command to run...

Mesure de l'évolution dans la compréhension fine des tâches vision-langage

Emanuele Bugliarello Laurent Sartran Aishwarya Agrawal Lisa Anne Hendricks Aida Nematzadeh

Résumé

Bien que le préentraînement sur de grandes masses de données image-texte issues du Web ait permis des progrès rapides dans de nombreuses tâches vision-langage (V&L), des travaux récents ont montré que les modèles préentraînés manquent d’une compréhension « fine », notamment la capacité à reconnaître des relations, des verbes ou des nombres présents dans les images. Cela a suscité un intérêt croissant dans la communauté pour développer de nouveaux benchmarks ou modèles capables de telles compétences. Afin de mieux comprendre et quantifier les progrès réalisés dans cette direction, nous étudions quatre modèles V&L performants sur quatre benchmarks à fort niveau de granularité. L’analyse révèle que X-VLM (Zeng et al., 2022) surpasse de manière constante les autres modèles de référence, et que les innovations dans la modélisation peuvent avoir un impact plus important que l’augmentation de la taille des données Web, qui peut même parfois dégrader les performances. Une investigation approfondie de X-VLM met en évidence l’importance à la fois de pertes nouvelles et de sources de données riches pour l’apprentissage de compétences fines. Enfin, en examinant la dynamique d’entraînement, nous constatons que, pour certaines tâches, les performances atteignent un pic tôt dans le processus d’entraînement ou présentent des fluctuations importantes, sans jamais converger.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Mesure de l'évolution dans la compréhension fine des tâches vision-langage | Articles | HyperAI