vor 17 Tagen

Ein Paradigmenwechsel in der maschinellen Übersetzung: Steigerung der Übersetzungsleistung großer Sprachmodelle

Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla

Abstract

Generative Large Language Models (LLMs) haben erhebliche Fortschritte in verschiedenen NLP-Aufgaben erzielt. Diese Entwicklung hat sich jedoch nicht in der maschinellen Übersetzung widerspiegelt, insbesondere bei Modellen mittlerer Größe (also mit 7B oder 13B Parametern), die weiterhin hinter herkömmlichen überwachten Encoder-Decoder-Übersetzungsmodellen zurückbleiben. Bisherige Studien haben versucht, die Übersetzungsleistung solcher mittelgroßen LLMs zu verbessern, doch die erreichten Fortschritte waren begrenzt. In dieser Arbeit stellen wir einen neuartigen Feinjustierungsansatz für LLMs vor, der speziell für die Übersetzungsaufgabe konzipiert ist und keine umfangreichen parallelen Datensätze erfordert, auf die traditionelle Übersetzungsmodelle normalerweise angewiesen sind. Unser Ansatz besteht aus zwei Feinjustierungsphasen: zunächst die Feinjustierung auf monolingualen Daten, gefolgt von einer weiteren Feinjustierung auf einer kleinen Menge hochwertiger paralleler Daten. Wir bezeichnen das durch diese Strategie entwickelte Modell als Advanced Language Model-based trAnslator (ALMA). Auf Basis des LLaMA-2-Modells zeigen unsere Ergebnisse, dass das Modell im Durchschnitt eine Verbesserung von mehr als 12 BLEU und 12 COMET gegenüber seiner Zero-shot-Leistung erzielt, über 10 Übersetzungsrichtungen hinweg, basierend auf den WMT'21- (2 Richtungen) und WMT'22- (8 Richtungen) Testdatensätzen. Die Leistung übertrifft signifikant alle vorherigen Arbeiten und ist sogar besser als die von NLLB-54B und GPT-3.5-text-davinci-003, obwohl das Modell nur über 7B oder 13B Parameter verfügt. Dieser Ansatz legt die Grundlage für eine neue Trainingsparadigma in der maschinellen Übersetzung.