ERNIE-UniX2 : Un cadre unifié multilingue et multimodal pour la compréhension et la génération

Les travaux récents sur le traitement croisés linguistiques et multimodaux cherchent à étendre les modèles de pré-entraînement vision-langage (VLP) aux entrées non anglaises, obtenant des performances remarquables. Toutefois, ces modèles se concentrent uniquement sur des tâches de compréhension, en s’appuyant sur une architecture à encodeur unique. Dans cet article, nous proposons ERNIE-UniX2, un cadre unifié de pré-entraînement croisé linguistique et multimodal pour les tâches de génération comme celles de compréhension. ERNIE-UniX2 intègre plusieurs paradigmes de pré-entraînement (par exemple, l’apprentissage contrastif et le modèle de langage) basés sur une architecture encodeur-décodage, afin d’apprendre une représentation conjointe améliorée à travers les langues et les modalités. En outre, ERNIE-UniX2 peut être fine-tuné de manière fluide pour diverses tâches downstream de génération et de compréhension. Pré-entraîné sur des jeux de données multilingues uniquement textuels ainsi que sur des jeux de données image-texte, ERNIE-UniX2 atteint des résultats SOTA sur diverses tâches croisées linguistiques et multimodales de génération et de compréhension, telles que la traduction automatique multimodale et la réponse multilingue aux questions visuelles.