DOCmT5: Dokumentenweites Vortrainieren mehrsprachiger Sprachmodelle

In diesem Paper stellen wir DOCmT5 vor, ein mehrsprachiges sequenz-zu-Sequenz-Sprachmodell, das mit großskaligen parallelen Dokumenten vortrainiert wurde. Während frühere Ansätze darauf abzielten, parallele Daten auf Satzebene zu nutzen, versuchen wir, ein allgemein einsetzbares vortrainiertes Modell zu entwickeln, das in der Lage ist, lange Dokumente zu verstehen und zu generieren. Wir schlagen ein einfaches und wirksames Vortrainingsziel vor – Document Reordering Machine Translation (DrMT) – bei dem die Eingabedokumente gemischt und maskiert werden und anschließend übersetzt werden müssen. DrMT führt zu konsistenten Verbesserungen gegenüber starken Baselines bei einer Vielzahl von dokumentenbasierten Generierungsaufgaben, darunter über 12 BLEU-Punkte bei dokumentenbasierter maschineller Übersetzung für bekannte Sprachpaare, über 7 BLEU-Punkte für unbekannte Sprachpaare und über 3 ROUGE-1-Punkte bei dokumentenbasierter, mehrsprachiger Zusammenfassung für bekannte Sprachpaare. Wir erreichen den Stand der Technik (SOTA) bei den Aufgaben WMT20 De-En und IWSLT15 Zh-En für dokumentenbasierte Übersetzung. Zudem führen wir eine umfassende Analyse verschiedener Faktoren für das Dokumentenvortraining durch, darunter (1) die Auswirkungen der Qualität der Vortrainingsdaten und (2) die Auswirkungen der Kombination von monolingualen und multilingualen Vortrainingsansätzen. Wir planen, unsere Modell-Checkpoint-Dateien öffentlich zugänglich zu machen.