vor 11 Tagen

ERNIE-M: Verbesserte mehrsprachige Repräsentation durch Ausrichtung mehrsprachiger Semantik mit einersprachigen Korpora

Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

Abstract

Neuere Studien haben gezeigt, dass vortrainierte mehrsprachige Modelle beeindruckende Leistungen bei nachfolgenden mehrsprachigen Aufgaben erzielen. Diese Verbesserung resultiert aus der Fähigkeit, große Mengen an monolingualen und parallelen Korpora zu lernen. Obwohl allgemein anerkannt ist, dass parallele Korpora entscheidend für die Verbesserung der Modellleistung sind, sind bestehende Methoden oft durch die Größe der parallelen Korpora eingeschränkt, insbesondere für Sprachen mit geringen Ressourcen. In diesem Artikel stellen wir ERNIE-M, eine neue Trainingsmethode, vor, die das Modell dazu anregt, die Darstellungen mehrerer Sprachen mit Hilfe monolingualer Korpora zu alignieren, um die Beschränkung zu überwinden, die die Größe der parallelen Korpora für die Modellleistung darstellt. Unser zentrales Konzept besteht darin, die Rückübersetzung (back-translation) in den Vortrainingsprozess zu integrieren. Wir generieren anhand eines monolingualen Korpus sogenannte Pseudo-parallele Satzpaare, um das Lernen semantischer Alignments zwischen verschiedenen Sprachen zu ermöglichen und somit die semantische Modellierung mehrsprachiger Modelle zu verbessern. Experimentelle Ergebnisse zeigen, dass ERNIE-M bestehende mehrsprachige Modelle übertrifft und in verschiedenen mehrsprachigen Nachfolgeaufgaben neue SOTA-Ergebnisse (state-of-the-art) erzielt.