vor 11 Tagen

ERNIE-UniX2: Ein einheitlicher mehrsprachiger und multimodaler Rahmen für das Verständnis und die Generierung

Bin Shan, Yaqian Han, Weichong Yin, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

Abstract

Kürzlich veröffentlichte Arbeiten im Bereich der mehrsprachigen, multimodalen Verarbeitung bemühen sich, Vision-Language-Pre-training (VLP)-Modelle auf nicht-englische Eingaben zu erweitern und erzielen hierbei beeindruckende Leistungen. Allerdings beschränken sich diese Modelle ausschließlich auf Verständnistasks und nutzen architektonisch lediglich Encoder-only-Strukturen. In diesem Artikel stellen wir ERNIE-UniX2 vor, einen einheitlichen, mehrsprachigen, multimodalen Pre-training-Framework sowohl für Generierungsaufgaben als auch für Verständnistasks. ERNIE-UniX2 integriert verschiedene Pre-training-Paradigmen (z. B. kontrastives Lernen und Sprachmodellierung) auf Basis einer Encoder-Decoder-Architektur und strebt an, eine verbesserte gemeinsame Darstellung über Sprachen und Modalitäten zu erlernen. Darüber hinaus kann ERNIE-UniX2 nahtlos für eine Vielzahl von Generierungs- und Verständnistasks im Fine-tuning-Ansatz eingesetzt werden. Auf sowohl mehrsprachigen Text-only-Datensätzen als auch Bild-Text-Datensätzen vortrainiert, erreicht ERNIE-UniX2 state-of-the-art (SOTA)-Ergebnisse bei verschiedenen mehrsprachigen, multimodalen Aufgaben der Generierung und des Verständnisses, wie beispielsweise multimodaler Maschinenübersetzung und mehrsprachiger visueller Fragebeantwortung.