CipherDAug: auf Geheimtext basierte Daten-Augmentierung für neuronale Maschinenübersetzung

Wir schlagen eine neuartige Data-Augmentation-Technik für neuronale Maschinübersetzung basierend auf ROT-$k$-Chiffren vor. ROT-$k$ ist ein einfacher Buchstabenersetzungs-Chiffre, bei dem ein Buchstabe im Klartext durch den $k$-ten Buchstaben danach im Alphabet ersetzt wird. Zunächst generieren wir mehrere ROT-$k$-Chiffren mit unterschiedlichen Werten von $k$ für den Klartext, der der Quellseiten-Teil der parallelen Daten darstellt. Anschließend nutzen wir diese verschlüsselten Trainingsdaten gemeinsam mit den ursprünglichen parallelen Daten über ein Multi-Source-Training, um die Leistung neuronaler Maschinübersetzung zu verbessern. Unsere Methode, CipherDAug, verwendet ein auf Co-Regularisierung basierendes Trainingsverfahren, erfordert keine externen Datensätze außer den ursprünglichen Trainingsdaten und nutzt einen Standard-Transformer, um starke Data-Augmentation-Techniken auf mehreren Datensätzen deutlich zu überbieten. Diese Technik lässt sich problemlos mit bestehenden Ansätzen zur Data-Augmentation kombinieren und erzielt insbesondere in Low-Resource-Szenarien besonders starke Ergebnisse.