vor 7 Tagen

Integration eines vortrainierten Sprachmodells in die neuronale Maschinenübersetzung

Soon-Jae Hwang, Chang-Sung Jeong

Abstract

Neural Machine Translation (NMT) ist durch umfangreiche Forschung und Entwicklung zu einer bedeutenden Technologie in der natürlichen Sprachverarbeitung geworden. Dennoch stellt die Knappheit hochwertiger bilingualer Datensätze weiterhin eine große Herausforderung für die Verbesserung der NMT-Leistung dar. In jüngsten Studien wird die Nutzung kontextueller Informationen aus vortrainierten Sprachmodellen (Pre-trained Language Models, PLM) untersucht, um dieses Problem anzugehen. Die Inkompatibilität zwischen PLM und NMT-Modellen bleibt jedoch weiterhin ungelöst. In dieser Arbeit wird das PLM-integrierte NMT-Modell (PiNMT) vorgestellt, um die identifizierten Probleme zu überwinden. Das PiNMT-Modell besteht aus drei zentralen Komponenten – dem PLM-Multi-Layer-Converter, der Embedding-Fusion und der Cosinus-Ausrichtung –, die jeweils eine entscheidende Rolle bei der effektiven Übertragung von PLM-Informationen in das NMT-Modell spielen. Zudem werden zwei neue Trainingsstrategien, die getrennten Lernraten (Separate Learning Rates) und das Dual-Step-Training, eingeführt. Durch die Implementierung des vorgeschlagenen PiNMT-Modells und der Trainingsstrategie erreichen wir state-of-the-art-Ergebnisse auf dem IWSLT'14 En↔De-Datensatz. Die Ergebnisse dieser Studie sind bemerkenswert, da sie einen innovativen Ansatz zur effizienten Integration von PLM in NMT vorstellen, der die Inkompatibilität überwindet und die Leistung signifikant steigert.