HyperAIHyperAI

Command Palette

Search for a command to run...

Qu'est-ce qui compte lors de la construction de modèles vision-langage ?

Hugo Laurençon Léo Tronchon Matthieu Cord Victor Sanh

Résumé

L'intérêt croissant porté aux modèles vision-langage (VLM) s'explique par les progrès réalisés dans les grands modèles linguistiques et les transformateurs visuels. Malgré l'abondance de publications sur ce sujet, nous constatons que les décisions cruciales concernant la conception des VLM ne sont souvent pas justifiées. Nous soutenons que ces choix non fondés freinent l'avancement du domaine, en rendant difficile l'identification des décisions qui améliorent effectivement les performances des modèles. Pour remédier à ce problème, nous menons des expérimentations approfondies sur des modèles pré-entraînés, le choix d'architectures, les données et les méthodes d'entraînement. Notre synthèse des résultats conduit à la mise au point d'Idefics2, un modèle fondamental vision-langage efficace de 8 milliards de paramètres. Idefics2 atteint des performances de pointe dans sa catégorie de taille sur diverses évaluations multimodales, et se montre souvent équivalent à des modèles quatre fois plus grands. Nous mettons librement à disposition le modèle (version de base, instruction et conversation), ainsi que les jeux de données créés pour son entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp