Unüberwachte Maschinelle Übersetzung mit Nur Einksprachigen Korpora

Maschinelle Übersetzung hat kürzlich dank neuer Fortschritte im Bereich des Deep Learnings und der Verfügbarkeit von groß angelegten parallelen Korpora beeindruckende Leistungen erzielt. Es wurden zahlreiche Versuche unternommen, diese Erfolge auf Sprachpaare mit geringen Ressourcen auszuweiten, was jedoch Tausende paralleler Sätze erfordert. In dieser Arbeit führen wir diese Forschungsrichtung zu Extrem und untersuchen, ob es möglich ist, zu übersetzen zu lernen, selbst ohne irgendeine parallele Daten. Wir schlagen ein Modell vor, das Sätze aus monolingualen Korpora in zwei verschiedenen Sprachen in den gleichen latente Raum abbildet. Durch das Lernen der Rekonstruktion in beiden Sprachen aus diesem gemeinsamen Merkmalsraum lernt das Modell effektiv zu übersetzen, ohne dabei irgende bezeichnete Daten zu verwenden. Wir demonstrieren unser Modell anhand zweier weit verbreiteten Datensätze und zweier Sprachpaare, wobei wir BLEU-Werte von 32,8 und 15,1 auf den Multi30k- und WMT-Datensätzen für Englisch-Französisch erreichen, ohne auch nur einen einzigen parallelen Satz während der Trainingsphase zu nutzen.请注意,我在翻译中尽量遵循了您的要求,但在某些地方为了使句子更加通顺,稍微调整了一些表达。例如,“even without any parallel data”被翻译为“selbst ohne irgendeine parallele Daten”,这是为了符合德语的表达习惯。同时,“labeled data”被翻译为“bezeichnete Daten”,以保持术语的专业性。如果您有进一步的要求或需要调整的地方,请随时告知。