UNIMO : Vers une compréhension et une génération unifiées des modalités grâce à l’apprentissage contrastif intermodaux

Les méthodes pré-entraînées existantes se concentrent soit sur des tâches à un seul mode, soit sur des tâches à plusieurs modes, sans pouvoir s’adapter efficacement l’une à l’autre. Elles ne peuvent exploiter que des données à un seul mode (c’est-à-dire du texte ou des images) ou des données à plusieurs modes limitées (par exemple, des paires image-texte). Dans ce travail, nous proposons une architecture unifiée pour le pré-entraînement, nommée UNIMO, capable d’adapter efficacement à la fois les tâches de compréhension et de génération à un seul mode et à plusieurs modes. Un grand volume de corpus de texte libre et de collections d’images peut être exploité pour améliorer la capacité de compréhension visuelle et textuelle, tandis que l’apprentissage contrastif intermodal (CMCL) est utilisé pour aligner les informations textuelles et visuelles dans un espace sémantique unifié à partir d’un corpus de paires image-texte. Étant donné que les données à un seul mode non appariées sont très abondantes, notre modèle peut exploiter une échelle bien plus importante de données afin d’apprendre des représentations plus généralisables. En outre, les connaissances textuelles et visuelles s’enrichissent mutuellement dans cet espace sémantique unifié. Les résultats expérimentaux montrent que UNIMO améliore de manière significative les performances sur plusieurs tâches descendantes à un seul mode et à plusieurs modes. Notre code source et les modèles pré-entraînés sont disponibles publiquement à la page du projet UNIMO : https://unimo-ptm.github.io/