HyperAIHyperAI
vor 18 Tagen

Frozene vorgebildete Transformer für die neuronale Gebärdensprachübersetzung

{Joni Dambre, Mieke Van Herreweghe, Severine Verlinden, Paloma Rabaey, Marija Pizurica, Karel D'Oosterlinck, Mathieu De Coster}
Frozene vorgebildete Transformer für die neuronale Gebärdensprachübersetzung
Abstract

Eine der zentralen Herausforderungen bei der Übersetzung von Gebärdensprache in eine gesprochene Sprache ist das Fehlen paralleler Korpora. In jüngeren Arbeiten wurden vielversprechende Ergebnisse auf dem RWTH-PHOENIX-Weather-2014T-Datensatz erzielt, der über achttausend parallele Sätze zwischen Deutscher Gebärdensprache (DGS) und Deutsch enthält. Aus Sicht der neuronalen maschinellen Übersetzung stellt dies jedoch nach wie vor ein äußerst kleines Datenset dar. Um die Leistung von Modellen, die auf kleinen Datensätzen trainiert werden, zu verbessern, kann Transferlernen eingesetzt werden. Obwohl dies bereits in der Gebärdensprachübersetzung für die Merkmalsextraktion genutzt wurde, ist, soweit uns bekannt, bislang noch kein Einsatz vorgefertigter Sprachmodelle untersucht worden. In dieser Arbeit nutzen wir vorgefertigte BERT-base- und mBART-50-Modelle, um unser Modell für die Übersetzung von Gebärdensprachvideos in gesprochene Sprachtexte zu initialisieren. Um Überanpassung zu reduzieren, wenden wir die Technik des „frozen pretrained transformer“ an: Dabei werden während des Trainings die meisten Parameter des vorgefertigten Modells fixiert. Mit einem vorgefertigten BERT-Modell erreichen wir eine Verbesserung gegenüber einer von Grund auf neu trainierten Baseline um 1 bis 2 BLEU-4. Unsere Ergebnisse zeigen, dass vorgefertigte Sprachmodelle zur Verbesserung der Leistung der Gebärdensprachübersetzung genutzt werden können und dass die Selbst-Attention-Muster in BERT auch in einem Zero-Shot-Szenario auf den Encoder und Decoder von Gebärdensprachübersetzungsmodellen übertragbar sind.