HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-UniX2: Ein einheitlicher mehrsprachiger und multimodaler Rahmen für das Verständnis und die Generierung

Bin Shan Yaqian Han Weichong Yin Shuohuan Wang Yu Sun Hao Tian Hua Wu Haifeng Wang

Zusammenfassung

Kürzlich veröffentlichte Arbeiten im Bereich der mehrsprachigen, multimodalen Verarbeitung bemühen sich, Vision-Language-Pre-training (VLP)-Modelle auf nicht-englische Eingaben zu erweitern und erzielen hierbei beeindruckende Leistungen. Allerdings beschränken sich diese Modelle ausschließlich auf Verständnistasks und nutzen architektonisch lediglich Encoder-only-Strukturen. In diesem Artikel stellen wir ERNIE-UniX2 vor, einen einheitlichen, mehrsprachigen, multimodalen Pre-training-Framework sowohl für Generierungsaufgaben als auch für Verständnistasks. ERNIE-UniX2 integriert verschiedene Pre-training-Paradigmen (z. B. kontrastives Lernen und Sprachmodellierung) auf Basis einer Encoder-Decoder-Architektur und strebt an, eine verbesserte gemeinsame Darstellung über Sprachen und Modalitäten zu erlernen. Darüber hinaus kann ERNIE-UniX2 nahtlos für eine Vielzahl von Generierungs- und Verständnistasks im Fine-tuning-Ansatz eingesetzt werden. Auf sowohl mehrsprachigen Text-only-Datensätzen als auch Bild-Text-Datensätzen vortrainiert, erreicht ERNIE-UniX2 state-of-the-art (SOTA)-Ergebnisse bei verschiedenen mehrsprachigen, multimodalen Aufgaben der Generierung und des Verständnisses, wie beispielsweise multimodaler Maschinenübersetzung und mehrsprachiger visueller Fragebeantwortung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp