Geografische Distanz als neuer Hyperparameter: Eine Fallstudie zur Bestimmung der optimalen vorab trainierten Sprache für die maschinelle Übersetzung von Englisch nach isiZulu

Aus der begrenzten Verfügbarkeit von Datensätzen und textuellen Ressourcen für ressourcenarme Sprachen wie isiZulu ergibt sich ein erhebliches Bedürfnis, Wissen aus vorab trainierten Modellen zu nutzen, um die maschinelle Übersetzung mit geringen Ressourcen zu verbessern. Zudem hat das Fehlen von Techniken zur Bewältigung der Komplexitäten morphologisch reicher Sprachen die ungleiche Entwicklung von Übersetzungsmodellen verstärkt, wobei viele weit verbreitete afrikanische Sprachen zurückgeblieben sind. Diese Studie untersucht die potenziellen Vorteile des Transfer-Learnings in einem englisch-isiZulu-Übersetzungsframework. Die Ergebnisse zeigen den Wert des Transfer-Learnings von verwandten Sprachen, um die Leistungsfähigkeit von Übersetzungsmodellen mit geringen Ressourcen zu steigern, was eine wichtige Strategie für zukünftige Übersetzungen mit geringen Ressourcen darstellt. Wir sammelten Ergebnisse aus 8 verschiedenen Sprachkorpora, einschließlich eines mehrsprachigen Korpus, und stellten fest, dass isiXhosa-isiZulu alle anderen Sprachen übertraf, wobei es auf dem Testset einen BLEU-Wert von 8,56 erreichte, der um 2,73 besser war als das mehrsprachige vorab trainierte Modell. Des Weiteren leiteten wir einen neuen Koeffizienten ab: den geografischen Distanzkoeffizienten von Nasir (Nasir's Geographical Distance Coefficient - NGDC), der eine einfache Auswahl von Sprachen für die vorab trainierten Modelle ermöglicht. Der NGDC zeigte auch, dass isiXhosa als Sprache für das vorab trainierte Modell ausgewählt werden sollte.