Command Palette
Search for a command to run...
CipherDAug: auf Geheimtext basierte Daten-Augmentierung für neuronale Maschinenübersetzung
CipherDAug: auf Geheimtext basierte Daten-Augmentierung für neuronale Maschinenübersetzung
Nishant Kambhatla Logan Born Anoop Sarkar
Zusammenfassung
Wir schlagen eine neuartige Data-Augmentation-Technik für neuronale Maschinübersetzung basierend auf ROT-k-Chiffren vor. ROT-k ist ein einfacher Buchstabenersetzungs-Chiffre, bei dem ein Buchstabe im Klartext durch den k-ten Buchstaben danach im Alphabet ersetzt wird. Zunächst generieren wir mehrere ROT-k-Chiffren mit unterschiedlichen Werten von k für den Klartext, der der Quellseiten-Teil der parallelen Daten darstellt. Anschließend nutzen wir diese verschlüsselten Trainingsdaten gemeinsam mit den ursprünglichen parallelen Daten über ein Multi-Source-Training, um die Leistung neuronaler Maschinübersetzung zu verbessern. Unsere Methode, CipherDAug, verwendet ein auf Co-Regularisierung basierendes Trainingsverfahren, erfordert keine externen Datensätze außer den ursprünglichen Trainingsdaten und nutzt einen Standard-Transformer, um starke Data-Augmentation-Techniken auf mehreren Datensätzen deutlich zu überbieten. Diese Technik lässt sich problemlos mit bestehenden Ansätzen zur Data-Augmentation kombinieren und erzielt insbesondere in Low-Resource-Szenarien besonders starke Ergebnisse.