HyperAIHyperAI

Command Palette

Search for a command to run...

X2^22-VLM : Modèle pré-entraîné tout-en-un pour les tâches vision-langage

Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou

Résumé

La pré-formation vision-langage vise à apprendre des alignements entre la vision et le langage à partir d’un grand volume de données. La plupart des méthodes existantes ne modélisent que les alignements image-texte. D'autres utilisent des détecteurs d'objets pré-entraînés afin d’exploiter des alignements vision-langage au niveau des objets. Dans cet article, nous proposons d’apprendre des alignements vision-langage à plusieurs granularités grâce à un cadre de pré-formation unifié qui apprend simultanément l’alignement à plusieurs granularités et la localisation à plusieurs granularités. À partir de ce cadre, nous présentons X2^22-VLM, un modèle tout-en-un doté d’une architecture modulaire flexible, dans lequel nous unifions également la pré-formation image-texte et la pré-formation vidéo-texte au sein d’un même modèle. X2^22-VLM est capable d’apprendre un nombre illimité de concepts visuels associés à diverses descriptions textuelles. Les résultats expérimentaux montrent que X2^22-VLM obtient les meilleurs performances, tant sur des tâches à petite échelle que sur des tâches à grande échelle, tant pour les tâches image-texte que vidéo-texte, tout en offrant un bon compromis entre performance et taille du modèle. En outre, nous démontrons que la conception modulaire de X2^22-VLM confère une grande transférabilité, permettant son utilisation dans n’importe quel langage ou domaine. Par exemple, en remplaçant simplement l’encodeur de texte par XLM-R, X2^22-VLM surpasser les modèles pré-entraînés multilingues et multimodaux les plus avancés actuellement, sans aucune pré-formation multilingue. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/zengyan-97/X2-VLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp