Unüberwachte mehrsprachige Ausrichtung mittels Wasserstein-Baryzenter

Wir untersuchen die unsupervisierte mehrsprachige Ausrichtung, das Problem der Findung von Wort-zu-Wort-Übersetzungen zwischen mehreren Sprachen ohne Verwendung paralleler Daten. Eine gängige Strategie besteht darin, das mehrsprachige Ausrichtungsproblem auf die vereinfachte zweisprachige Situation zu reduzieren, indem man eine der Eingabesprachen als Pivot-Sprache wählt, durch die man hindurchtransitieren kann. Es ist jedoch bekannt, dass die Wahl einer schlecht geeigneten Pivot-Sprache (wie beispielsweise Englisch) die Übersetzungsqualität erheblich verschlechtern kann, da die angenommenen transitiven Beziehungen zwischen allen Sprachenpaaren im Trainingsprozess nicht zwangsläufig berücksichtigt werden. Anstatt durch eine willkürlich gewählte Pivot-Sprache zu gehen, schlagen wir vor, den Wasserstein-Baryzenter als informativere „Mittel“-Sprache zu nutzen: Er fasst Informationen aus allen Sprachen zusammen und minimiert gleichzeitig alle paarweisen Transportkosten. Wir evaluieren unsere Methode anhand standardisierter Benchmarks und zeigen herausragende Ergebnisse im Vergleich zu aktuellen Ansätzen.