HyperAIHyperAI

Command Palette

Search for a command to run...

DOCmT5: Dokumentenweites Vortrainieren mehrsprachiger Sprachmodelle

Chia-Hsuan Lee Aditya Siddhant Viresh Ratnakar Melvin Johnson

Zusammenfassung

In diesem Paper stellen wir DOCmT5 vor, ein mehrsprachiges sequenz-zu-Sequenz-Sprachmodell, das mit großskaligen parallelen Dokumenten vortrainiert wurde. Während frühere Ansätze darauf abzielten, parallele Daten auf Satzebene zu nutzen, versuchen wir, ein allgemein einsetzbares vortrainiertes Modell zu entwickeln, das in der Lage ist, lange Dokumente zu verstehen und zu generieren. Wir schlagen ein einfaches und wirksames Vortrainingsziel vor – Document Reordering Machine Translation (DrMT) – bei dem die Eingabedokumente gemischt und maskiert werden und anschließend übersetzt werden müssen. DrMT führt zu konsistenten Verbesserungen gegenüber starken Baselines bei einer Vielzahl von dokumentenbasierten Generierungsaufgaben, darunter über 12 BLEU-Punkte bei dokumentenbasierter maschineller Übersetzung für bekannte Sprachpaare, über 7 BLEU-Punkte für unbekannte Sprachpaare und über 3 ROUGE-1-Punkte bei dokumentenbasierter, mehrsprachiger Zusammenfassung für bekannte Sprachpaare. Wir erreichen den Stand der Technik (SOTA) bei den Aufgaben WMT20 De-En und IWSLT15 Zh-En für dokumentenbasierte Übersetzung. Zudem führen wir eine umfassende Analyse verschiedener Faktoren für das Dokumentenvortraining durch, darunter (1) die Auswirkungen der Qualität der Vortrainingsdaten und (2) die Auswirkungen der Kombination von monolingualen und multilingualen Vortrainingsansätzen. Wir planen, unsere Modell-Checkpoint-Dateien öffentlich zugänglich zu machen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DOCmT5: Dokumentenweites Vortrainieren mehrsprachiger Sprachmodelle | Paper | HyperAI