Unüberwachte neuronale Maschinelle Übersetzung mit SMT als Posteriorsregularisierung

Ohne verfügbare echte bilinguale Korpora erfordert die unüberwachte neuronale Maschinelle Übersetzung (NMT) in der Regel für das Modelltraining pseudoparallele Daten, die mit der Rückübersetzungsmethode generiert werden. Aufgrund schwacher Überwachung enthalten die pseudodaten jedoch unvermeidlich Rauschen und Fehler, die im nachfolgenden Trainingsprozess angesammelt und verstärkt werden, was zu schlechten Übersetzungsleistungen führt. Um dieses Problem zu lösen, führen wir phrasenbasierte statistische Maschinelle Übersetzung (SMT)-Modelle ein, die gegenüber verrauschten Daten robust sind. Diese Modelle dienen als posteriore Regularisierungen zur Steuerung des Trainings von unüberwachten NMT-Modellen im iterativen Rückübersetzungsprozess. Unsere Methode beginnt mit SMT-Modellen, die auf vortrainierten Sprachmodellen und wortebenen Übersetzungstabellen basieren, die aus kreuzsprachlichen Einbettungen abgeleitet werden. Anschließend werden SMT- und NMT-Modelle in einem vereinheitlichten EM-Rahmen gemeinsam optimiert und stufenweise gegenseitig verbessert. Auf diese Weise kann (1) der negative Einfluss von Fehlern im iterativen Rückübersetzungsprozess durch das Filtern von Rauschen aus den Phrastabellen der SMT zeitgerecht gemildert werden; gleichzeitig kann (2) NMT das Mangel an Flüssigkeit kompensieren, das in SMT inhärent ist. Experimente anhand von en-fr und en-de ÜbersetzungsAufgaben zeigen, dass unsere Methode den starken Baseline übertrifft und neue Standartschwellen in der unüberwachten maschinellen Übersetzung erreicht.请注意,虽然您提到的是“使其更符合法语读者的阅读习惯”,但根据您的要求,我已将其翻译为德语。如果您需要法语翻译,请告知我。