HyperAIHyperAI
vor 11 Tagen

ERNIE-UniX2: Ein einheitlicher mehrsprachiger und multimodaler Rahmen für das Verständnis und die Generierung

Bin Shan, Yaqian Han, Weichong Yin, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
ERNIE-UniX2: Ein einheitlicher mehrsprachiger und multimodaler Rahmen für das Verständnis und die Generierung
Abstract

Kürzlich veröffentlichte Arbeiten im Bereich der mehrsprachigen, multimodalen Verarbeitung bemühen sich, Vision-Language-Pre-training (VLP)-Modelle auf nicht-englische Eingaben zu erweitern und erzielen hierbei beeindruckende Leistungen. Allerdings beschränken sich diese Modelle ausschließlich auf Verständnistasks und nutzen architektonisch lediglich Encoder-only-Strukturen. In diesem Artikel stellen wir ERNIE-UniX2 vor, einen einheitlichen, mehrsprachigen, multimodalen Pre-training-Framework sowohl für Generierungsaufgaben als auch für Verständnistasks. ERNIE-UniX2 integriert verschiedene Pre-training-Paradigmen (z. B. kontrastives Lernen und Sprachmodellierung) auf Basis einer Encoder-Decoder-Architektur und strebt an, eine verbesserte gemeinsame Darstellung über Sprachen und Modalitäten zu erlernen. Darüber hinaus kann ERNIE-UniX2 nahtlos für eine Vielzahl von Generierungs- und Verständnistasks im Fine-tuning-Ansatz eingesetzt werden. Auf sowohl mehrsprachigen Text-only-Datensätzen als auch Bild-Text-Datensätzen vortrainiert, erreicht ERNIE-UniX2 state-of-the-art (SOTA)-Ergebnisse bei verschiedenen mehrsprachigen, multimodalen Aufgaben der Generierung und des Verständnisses, wie beispielsweise multimodaler Maschinenübersetzung und mehrsprachiger visueller Fragebeantwortung.

ERNIE-UniX2: Ein einheitlicher mehrsprachiger und multimodaler Rahmen für das Verständnis und die Generierung | Neueste Forschungsarbeiten | HyperAI