Vers la Construction de Modèles Fondamentaux Généraux pour les Tâches de Compréhension du Langage, de la Vision et de la Vision-Texte

Les modèles fondamentaux (ou modèles pré-entraînés) ont considérablement amélioré les performances sur diverses tâches d’understanding linguistique, visuel et multimodal (langage-visuel). Toutefois, les modèles fondamentaux existants ne parviennent à atteindre leurs meilleurs résultats que dans un seul type de tâche — linguistique, visuelle ou multimodale. Il reste une question ouverte quant à la possibilité de concevoir un modèle fondamental capable d’excéder tous les autres sur l’ensemble des tâches d’understanding, que nous appelons un modèle fondamental général. Dans cet article, nous proposons un nouveau modèle fondamental général, nommé X-FM (X-Foundation Model). Le X-FM dispose d’un encodeur linguistique, d’un encodeur visuel et d’un encodeur de fusion, ainsi que d’une nouvelle méthode d’entraînement. Cette méthode inclut deux techniques innovantes pour entraîner le X-FM à partir de données textuelles, visuelles et paires image-texte. La première consiste à bloquer les gradients provenant de l’entraînement multimodal lors de l’entraînement de l’encodeur linguistique. La seconde consiste à utiliser l’entraînement multimodal pour guider l’apprentissage de l’encodeur visuel. Des expériences étendues sur des jeux de données standard montrent que le X-FM surpasse significativement les modèles fondamentaux généralisés existants, tout en atteignant des performances équivalentes ou supérieures à celles des modèles fondamentaux spécialisés dans les tâches linguistiques, visuelles ou multimodales. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/zhangxinsong-nlp/XFM.