HyperAIHyperAI
il y a 2 mois

Quelles sont les considérations importantes lors de la construction de modèles vision-langage ?

Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
Quelles sont les considérations importantes lors de la construction de modèles vision-langage ?
Résumé

L'intérêt croissant pour les modèles vision-langage (VLMs) est alimenté par les progrès réalisés dans les grands modèles de langage et les transformateurs visuels. Malgré l'abondance des publications sur ce sujet, nous constatons que de nombreuses décisions cruciales concernant la conception des VLMs ne sont pas justifiées. Nous soutenons que ces décisions non fondées entravent le progrès dans le domaine en rendant difficile l'identification des choix qui améliorent les performances du modèle. Pour remédier à ce problème, nous menons une série d'expériences approfondies autour des modèles pré-entraînés, du choix de l'architecture, des données et des méthodes d'entraînement. Notre synthèse des résultats inclut le développement de Idefics2, un VLM fondamental efficace doté de 8 milliards de paramètres. Idefics2 atteint des performances de pointe dans sa catégorie de taille sur diverses évaluations multimodales et se compare souvent favorablement à des modèles quatre fois plus volumineux. Nous mettons à disposition le modèle (versions base, instructée et conversationnelle) ainsi que les jeux de données créés pour son entraînement.

Quelles sont les considérations importantes lors de la construction de modèles vision-langage ? | Articles de recherche récents | HyperAI