HyperAIHyperAI
vor 2 Monaten

Wortübersetzung ohne parallele Daten

Alexis Conneau; Guillaume Lample; Marc'Aurelio Ranzato; Ludovic Denoyer; Hervé Jégou
Wortübersetzung ohne parallele Daten
Abstract

Zustandsderkunst-Methoden zur Lernung von cross-lingualen Wort-Vektoren haben sich bisher auf bilingualen Wörterbüchern oder parallelen Korpora gestützt. Neuere Studien zeigten jedoch, dass die Notwendigkeit einer Überwachung durch parallele Daten mit Hilfe von informationsreichen Zeichenebenen reduziert werden kann. Obwohl diese Methoden vielversprechende Ergebnisse erzielten, sind sie den überwachten Ansätzen noch nicht gleichwertig und beschränken sich auf Sprachpaare, die ein gemeinsames Alphabet teilen. In dieser Arbeit zeigen wir, dass es möglich ist, ein bilingualisches Wörterbuch zwischen zwei Sprachen ohne Verwendung von parallelen Korpora zu erstellen, indem man monolinguale Wort-Vektorausschnitte auf eine unüberwachte Weise ausrichtet. Ohne irgende Zeicheninformationen zu verwenden, übertrifft unser Modell sogar bestehende überwachte Methoden bei cross-lingualen Aufgaben für einige Sprachpaare. Unsere Experimente belegen zudem, dass unsere Methode auch für ferne Sprachpaare wie Englisch-Russisch oder Englisch-Chinesisch sehr gut funktioniert. Schließlich beschreiben wir Experimente am Ressourcenarm-Sprachpaar Englisch-Esperanto, für das nur begrenzte parallele Daten vorliegen, um den potentiellen Einfluss unserer Methode in der vollständig unüberwachten maschinellen Übersetzung zu demonstrieren. Unser Code, die Vektoren und die Wörterbücher sind öffentlich zugänglich.