HyperAIHyperAI

Command Palette

Search for a command to run...

Vers la Construction de Modèles Fondamentaux Généraux pour les Tâches de Compréhension du Langage, de la Vision et de la Vision-Texte

Xinsong Zhang Yan Zeng Jipeng Zhang Hang Li

Résumé

Les modèles fondamentaux (ou modèles pré-entraînés) ont considérablement amélioré les performances sur diverses tâches d’understanding linguistique, visuel et multimodal (langage-visuel). Toutefois, les modèles fondamentaux existants ne parviennent à atteindre leurs meilleurs résultats que dans un seul type de tâche — linguistique, visuelle ou multimodale. Il reste une question ouverte quant à la possibilité de concevoir un modèle fondamental capable d’excéder tous les autres sur l’ensemble des tâches d’understanding, que nous appelons un modèle fondamental général. Dans cet article, nous proposons un nouveau modèle fondamental général, nommé X-FM (X-Foundation Model). Le X-FM dispose d’un encodeur linguistique, d’un encodeur visuel et d’un encodeur de fusion, ainsi que d’une nouvelle méthode d’entraînement. Cette méthode inclut deux techniques innovantes pour entraîner le X-FM à partir de données textuelles, visuelles et paires image-texte. La première consiste à bloquer les gradients provenant de l’entraînement multimodal lors de l’entraînement de l’encodeur linguistique. La seconde consiste à utiliser l’entraînement multimodal pour guider l’apprentissage de l’encodeur visuel. Des expériences étendues sur des jeux de données standard montrent que le X-FM surpasse significativement les modèles fondamentaux généralisés existants, tout en atteignant des performances équivalentes ou supérieures à celles des modèles fondamentaux spécialisés dans les tâches linguistiques, visuelles ou multimodales. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/zhangxinsong-nlp/XFM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers la Construction de Modèles Fondamentaux Généraux pour les Tâches de Compréhension du Langage, de la Vision et de la Vision-Texte | Articles | HyperAI