16 天前

ERNIE-UniX2:一种统一的跨语言跨模态框架,用于理解和生成

Bin Shan, Yaqian Han, Weichong Yin, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
ERNIE-UniX2:一种统一的跨语言跨模态框架,用于理解和生成
摘要

近期的跨语言跨模态研究致力于将视觉-语言预训练(Vision-Language Pre-training, VLP)模型拓展至非英语输入,并取得了令人瞩目的性能表现。然而,这些模型仅聚焦于理解类任务,且基于仅编码器(encoder-only)的架构。本文提出ERNIE-UniX2,一种面向生成与理解任务的统一跨语言跨模态预训练框架。ERNIE-UniX2基于编码器-解码器(encoder-decoder)架构,融合多种预训练范式(如对比学习与语言建模),旨在学习跨语言与跨模态的更优联合表示。此外,ERNIE-UniX2可无缝地微调以适配多种生成与理解类下游任务。该模型在多语言文本数据集与图文数据集上联合预训练,已在多项跨语言跨模态生成与理解任务中取得当前最优(SOTA)性能,包括多模态机器翻译与多语言视觉问答等。

ERNIE-UniX2:一种统一的跨语言跨模态框架,用于理解和生成 | 最新论文 | HyperAI超神经