vor 17 Tagen

Cross-modality Data Augmentation für End-to-End Sign Language Translation

Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Hui Xiong

Abstract

End-to-End-Übersetzung von Gebärdensprache (SLT) zielt darauf ab, Gebärdensprachvideos direkt in gesprochene Sprachtexte zu übersetzen, ohne Zwischenrepräsentationen zu verwenden. Dies stellt aufgrund der Modalitätslücke zwischen Gebärdenvideos und Texten sowie der Knappheit an gelabelten Daten eine herausfordernde Aufgabe dar. Aufgrund dieser Herausforderungen sind die Eingabeverteilung und Ausgabeverteilung bei der End-to-End-Gebärdensprachübersetzung (d. h. Video-zu-Text) weniger effektiv im Vergleich zur Gloss-zu-Text-Übersetzung (d. h. Text-zu-Text). Um diese Herausforderungen zu bewältigen, schlagen wir einen neuartigen Rahmen für cross-modale Daten-Augmentation (XmDA) vor, um die leistungsstarken Fähigkeiten der Gloss-zu-Text-Übersetzung auf die End-to-End-Gebärdensprachübersetzung (d. h. Video-zu-Text) zu übertragen, indem wir sogenannte Pseudogloss-Text-Paare aus einem Gebärdengloss-Übersetzungsmodell ausnutzen. Konkret besteht XmDA aus zwei zentralen Komponenten: cross-modaler Mix-up und cross-modaler Knowledge-Distillation. Ersterer fördert explizit die Ausrichtung zwischen Gebärdenvideofeatures und Gloss-Embeddings, um die Modalitätslücke zu schließen. Letzterer nutzt das Generationswissen von Gloss-zu-Text-Teacher-Modellen, um die Erzeugung von gesprochenem Sprachtext zu leiten. Experimentelle Ergebnisse auf zwei weit verbreiteten SLT-Datensätzen, nämlich PHOENIX-2014T und CSL-Daily, zeigen, dass der vorgeschlagene XmDA-Rahmen die Baseline-Modelle signifikant und konsistent übertrifft. Umfassende Analysen bestätigen unsere Behauptung, dass XmDA die Erzeugung von gesprochenem Sprachtext verbessert, indem er die Darstellungsdistanz zwischen Videos und Texten verringert sowie die Verarbeitung von seltenen Wörtern und langen Sätzen optimiert.