HyperAIHyperAI

Command Palette

Search for a command to run...

Wortübersetzung ohne parallele Daten

Alexis Conneau; Guillaume Lample; Marc'Aurelio Ranzato; Ludovic Denoyer; Hervé Jégou

Zusammenfassung

Zustandsderkunst-Methoden zur Lernung von cross-lingualen Wort-Vektoren haben sich bisher auf bilingualen Wörterbüchern oder parallelen Korpora gestützt. Neuere Studien zeigten jedoch, dass die Notwendigkeit einer Überwachung durch parallele Daten mit Hilfe von informationsreichen Zeichenebenen reduziert werden kann. Obwohl diese Methoden vielversprechende Ergebnisse erzielten, sind sie den überwachten Ansätzen noch nicht gleichwertig und beschränken sich auf Sprachpaare, die ein gemeinsames Alphabet teilen. In dieser Arbeit zeigen wir, dass es möglich ist, ein bilingualisches Wörterbuch zwischen zwei Sprachen ohne Verwendung von parallelen Korpora zu erstellen, indem man monolinguale Wort-Vektorausschnitte auf eine unüberwachte Weise ausrichtet. Ohne irgende Zeicheninformationen zu verwenden, übertrifft unser Modell sogar bestehende überwachte Methoden bei cross-lingualen Aufgaben für einige Sprachpaare. Unsere Experimente belegen zudem, dass unsere Methode auch für ferne Sprachpaare wie Englisch-Russisch oder Englisch-Chinesisch sehr gut funktioniert. Schließlich beschreiben wir Experimente am Ressourcenarm-Sprachpaar Englisch-Esperanto, für das nur begrenzte parallele Daten vorliegen, um den potentiellen Einfluss unserer Methode in der vollständig unüberwachten maschinellen Übersetzung zu demonstrieren. Unser Code, die Vektoren und die Wörterbücher sind öffentlich zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wortübersetzung ohne parallele Daten | Paper | HyperAI