il y a 11 jours

ERNIE-UniX2 : Un cadre unifié multilingue et multimodal pour la compréhension et la génération

Bin Shan, Yaqian Han, Weichong Yin, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

Résumé

Les travaux récents sur le traitement croisés linguistiques et multimodaux cherchent à étendre les modèles de pré-entraînement vision-langage (VLP) aux entrées non anglaises, obtenant des performances remarquables. Toutefois, ces modèles se concentrent uniquement sur des tâches de compréhension, en s’appuyant sur une architecture à encodeur unique. Dans cet article, nous proposons ERNIE-UniX2, un cadre unifié de pré-entraînement croisé linguistique et multimodal pour les tâches de génération comme celles de compréhension. ERNIE-UniX2 intègre plusieurs paradigmes de pré-entraînement (par exemple, l’apprentissage contrastif et le modèle de langage) basés sur une architecture encodeur-décodage, afin d’apprendre une représentation conjointe améliorée à travers les langues et les modalités. En outre, ERNIE-UniX2 peut être fine-tuné de manière fluide pour diverses tâches downstream de génération et de compréhension. Pré-entraîné sur des jeux de données multilingues uniquement textuels ainsi que sur des jeux de données image-texte, ERNIE-UniX2 atteint des résultats SOTA sur diverses tâches croisées linguistiques et multimodales de génération et de compréhension, telles que la traduction automatique multimodale et la réponse multilingue aux questions visuelles.