vor 17 Tagen

Keine Sprache zurückgelassen: Skalierung menschenzentrierter maschineller Übersetzung

NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang

Details der Forschungsarbeit anzeigen

Keine Sprache zurückgelassen: Skalierung menschenzentrierter maschineller Übersetzung

Abstract

Getrieben vom Ziel, Sprachbarrieren weltweit zu beseitigen, hat die maschinelle Übersetzung sich heute als zentrales Forschungsfeld der künstlichen Intelligenz etabliert. Doch diese Bemühungen konzentrieren sich auf eine kleine Gruppe von Sprachen, wodurch die große Mehrheit – vor allem Sprachen mit geringen Ressourcen – außen vor bleibt. Was braucht es, um die Hürde von 200 Sprachen zu überwinden, dabei aber sichere und hochwertige Ergebnisse zu gewährleisten und gleichzeitig ethische Überlegungen zu berücksichtigen? In „No Language Left Behind“ nahmen wir diese Herausforderung auf, indem wir zunächst die Notwendigkeit einer Unterstützung für Sprachen mit geringen Ressourcen durch explorative Interviews mit Muttersprachlern fundiert darstellten. Anschließend entwickelten wir Datensätze und Modelle, die darauf abzielen, die Leistungslücke zwischen Sprachen mit hohen und niedrigen Ressourcen zu schließen. Genauer gesagt, entwickelten wir ein bedingtes Berechnungsmodell basierend auf einem sparsam gesteuerten Mischungsmodell aus Experten (Sparsely Gated Mixture of Experts), das auf Daten trainiert wurde, die mit neuartigen und effektiven Datenmining-Techniken für Sprachen mit geringen Ressourcen gewonnen wurden. Wir schlagen mehrere architektonische und trainingsbezogene Verbesserungen vor, um Überanpassung bei der Trainierung auf Tausenden von Übersetzungs-Aufgaben zu vermeiden. Kritisch bewerteten wir die Leistung von über 40.000 verschiedenen Übersetzungsrichtungen mithilfe einer menschlich übersetzten Benchmark (Flores-200) und kombinierten menschliche Bewertungen mit einer neuartigen Toxizitäts-Benchmark, die alle Sprachen aus Flores-200 abdeckt, um die Sicherheit der Übersetzungen zu prüfen. Unser Modell erreicht eine Verbesserung von 44 % im BLEU-Score im Vergleich zum vorherigen Stand der Technik und legt damit wichtige Grundlagen für die Realisierung eines universellen Übersetzungssystems. Schließlich stellen wir alle in dieser Arbeit vorgestellten Beiträge als Open Source zur Verfügung, zugänglich unter https://github.com/facebookresearch/fairseq/tree/nllb.