HyperAIHyperAI
vor 3 Monaten

Vor-Training mehrsprachiger neuronaler Maschinenübersetzung durch Ausnutzung von Alignierungsinfo

Zehui Lin, Xiao Pan, Mingxuan Wang, Xipeng Qiu, Jiangtao Feng, Hao Zhou, Lei Li
Vor-Training mehrsprachiger neuronaler Maschinenübersetzung durch Ausnutzung von Alignierungsinfo
Abstract

Wir untersuchen die folgende Frage im Bereich der maschinellen Übersetzung (MT): Können wir ein einziges universelles MT-Modell entwickeln, das als gemeinsamer Ausgangspunkt dient und zur Ableitung und Verbesserung spezialisierter Modelle für beliebige Sprachpaare führt? Wir stellen mRASP vor, einen Ansatz zur Vortrainierung eines universellen mehrsprachigen neuronalen Maschinenübersetzungsmodells. Der zentrale Ansatz von mRASP basiert auf einer neuartigen Technik des zufälligen, ausgerichteten Substitution, die Wörter und Ausdrücke mit ähnlichen Bedeutungen über mehrere Sprachen hinweg näher in den Repräsentationsraum rückt. Wir trainieren ein mRASP-Modell gemeinsam auf 32 Sprachpaaren unter Verwendung ausschließlich öffentlicher Datensätze. Anschließend wird das Modell auf nachgelagerte Sprachpaare fine-tuned, um spezialisierte MT-Modelle zu erzeugen. Wir führen umfangreiche Experimente an 42 Übersetzungsrichtungen in vielfältigen Szenarien durch, darunter Sprachpaare mit geringen, mittleren und reichen Ressourcen sowie Übertragung auf exotische Sprachpaare. Die experimentellen Ergebnisse zeigen, dass mRASP im Vergleich zur direkten Trainingsaufgabe auf den Zielpaaren eine signifikante Leistungssteigerung erzielt. Erstmals wird damit nachgewiesen, dass mehrere Sprachpaare mit geringen Ressourcen genutzt werden können, um die Leistung von MT-Modellen mit reichen Ressourcen zu verbessern. Überraschenderweise ist mRASP sogar in der Lage, die Übersetzungsqualität für exotische Sprachen zu steigern, die im Vortrainingskorpus nie vorkamen. Der Quellcode, die Daten und die vortrainierten Modelle sind unter https://github.com/linzehui/mRASP verfügbar.

Vor-Training mehrsprachiger neuronaler Maschinenübersetzung durch Ausnutzung von Alignierungsinfo | Forschungsarbeiten | HyperAI