il y a 16 jours

X$^2$-VLM : Modèle pré-entraîné tout-en-un pour les tâches vision-langage

Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang, Wangchunshu Zhou

Résumé

La pré-formation vision-langage vise à apprendre des alignements entre la vision et le langage à partir d’un grand volume de données. La plupart des méthodes existantes ne modélisent que les alignements image-texte. D'autres utilisent des détecteurs d'objets pré-entraînés afin d’exploiter des alignements vision-langage au niveau des objets. Dans cet article, nous proposons d’apprendre des alignements vision-langage à plusieurs granularités grâce à un cadre de pré-formation unifié qui apprend simultanément l’alignement à plusieurs granularités et la localisation à plusieurs granularités. À partir de ce cadre, nous présentons X$^2$-VLM, un modèle tout-en-un doté d’une architecture modulaire flexible, dans lequel nous unifions également la pré-formation image-texte et la pré-formation vidéo-texte au sein d’un même modèle. X$^2$-VLM est capable d’apprendre un nombre illimité de concepts visuels associés à diverses descriptions textuelles. Les résultats expérimentaux montrent que X$^2$-VLM obtient les meilleurs performances, tant sur des tâches à petite échelle que sur des tâches à grande échelle, tant pour les tâches image-texte que vidéo-texte, tout en offrant un bon compromis entre performance et taille du modèle. En outre, nous démontrons que la conception modulaire de X$^2$-VLM confère une grande transférabilité, permettant son utilisation dans n’importe quel langage ou domaine. Par exemple, en remplaçant simplement l’encodeur de texte par XLM-R, X$^2$-VLM surpasser les modèles pré-entraînés multilingues et multimodaux les plus avancés actuellement, sans aucune pré-formation multilingue. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/zengyan-97/X2-VLM.