Command Palette
Search for a command to run...
X2-VLM : Modèle pré-entraîné tout-en-un pour les tâches vision-langage
X2-VLM : Modèle pré-entraîné tout-en-un pour les tâches vision-langage
Yan Zeng Xinsong Zhang Hang Li Jiawei Wang Jipeng Zhang Wangchunshu Zhou
Résumé
La pré-formation vision-langage vise à apprendre des alignements entre la vision et le langage à partir d’un grand volume de données. La plupart des méthodes existantes ne modélisent que les alignements image-texte. D'autres utilisent des détecteurs d'objets pré-entraînés afin d’exploiter des alignements vision-langage au niveau des objets. Dans cet article, nous proposons d’apprendre des alignements vision-langage à plusieurs granularités grâce à un cadre de pré-formation unifié qui apprend simultanément l’alignement à plusieurs granularités et la localisation à plusieurs granularités. À partir de ce cadre, nous présentons X2-VLM, un modèle tout-en-un doté d’une architecture modulaire flexible, dans lequel nous unifions également la pré-formation image-texte et la pré-formation vidéo-texte au sein d’un même modèle. X2-VLM est capable d’apprendre un nombre illimité de concepts visuels associés à diverses descriptions textuelles. Les résultats expérimentaux montrent que X2-VLM obtient les meilleurs performances, tant sur des tâches à petite échelle que sur des tâches à grande échelle, tant pour les tâches image-texte que vidéo-texte, tout en offrant un bon compromis entre performance et taille du modèle. En outre, nous démontrons que la conception modulaire de X2-VLM confère une grande transférabilité, permettant son utilisation dans n’importe quel langage ou domaine. Par exemple, en remplaçant simplement l’encodeur de texte par XLM-R, X2-VLM surpasser les modèles pré-entraînés multilingues et multimodaux les plus avancés actuellement, sans aucune pré-formation multilingue. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/zengyan-97/X2-VLM.