HyperAIHyperAI

Command Palette

Search for a command to run...

UNIMO : Vers une compréhension et une génération unifiées des modalités grâce à l’apprentissage contrastif intermodaux

Wei Li Can Gao Guocheng Niu Xinyan Xiao Hao Liu Jiachen Liu Hua Wu Haifeng Wang

Résumé

Les méthodes pré-entraînées existantes se concentrent soit sur des tâches à un seul mode, soit sur des tâches à plusieurs modes, sans pouvoir s’adapter efficacement l’une à l’autre. Elles ne peuvent exploiter que des données à un seul mode (c’est-à-dire du texte ou des images) ou des données à plusieurs modes limitées (par exemple, des paires image-texte). Dans ce travail, nous proposons une architecture unifiée pour le pré-entraînement, nommée UNIMO, capable d’adapter efficacement à la fois les tâches de compréhension et de génération à un seul mode et à plusieurs modes. Un grand volume de corpus de texte libre et de collections d’images peut être exploité pour améliorer la capacité de compréhension visuelle et textuelle, tandis que l’apprentissage contrastif intermodal (CMCL) est utilisé pour aligner les informations textuelles et visuelles dans un espace sémantique unifié à partir d’un corpus de paires image-texte. Étant donné que les données à un seul mode non appariées sont très abondantes, notre modèle peut exploiter une échelle bien plus importante de données afin d’apprendre des représentations plus généralisables. En outre, les connaissances textuelles et visuelles s’enrichissent mutuellement dans cet espace sémantique unifié. Les résultats expérimentaux montrent que UNIMO améliore de manière significative les performances sur plusieurs tâches descendantes à un seul mode et à plusieurs modes. Notre code source et les modèles pré-entraînés sont disponibles publiquement à la page du projet UNIMO : https://unimo-ptm.github.io/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp