HyperAIHyperAI

Command Palette

Search for a command to run...

Cross-modality Data Augmentation für End-to-End Sign Language Translation

Jinhui Ye Wenxiang Jiao Xing Wang Zhaopeng Tu Hui Xiong

Zusammenfassung

End-to-End-Übersetzung von Gebärdensprache (SLT) zielt darauf ab, Gebärdensprachvideos direkt in gesprochene Sprachtexte zu übersetzen, ohne Zwischenrepräsentationen zu verwenden. Dies stellt aufgrund der Modalitätslücke zwischen Gebärdenvideos und Texten sowie der Knappheit an gelabelten Daten eine herausfordernde Aufgabe dar. Aufgrund dieser Herausforderungen sind die Eingabeverteilung und Ausgabeverteilung bei der End-to-End-Gebärdensprachübersetzung (d. h. Video-zu-Text) weniger effektiv im Vergleich zur Gloss-zu-Text-Übersetzung (d. h. Text-zu-Text). Um diese Herausforderungen zu bewältigen, schlagen wir einen neuartigen Rahmen für cross-modale Daten-Augmentation (XmDA) vor, um die leistungsstarken Fähigkeiten der Gloss-zu-Text-Übersetzung auf die End-to-End-Gebärdensprachübersetzung (d. h. Video-zu-Text) zu übertragen, indem wir sogenannte Pseudogloss-Text-Paare aus einem Gebärdengloss-Übersetzungsmodell ausnutzen. Konkret besteht XmDA aus zwei zentralen Komponenten: cross-modaler Mix-up und cross-modaler Knowledge-Distillation. Ersterer fördert explizit die Ausrichtung zwischen Gebärdenvideofeatures und Gloss-Embeddings, um die Modalitätslücke zu schließen. Letzterer nutzt das Generationswissen von Gloss-zu-Text-Teacher-Modellen, um die Erzeugung von gesprochenem Sprachtext zu leiten. Experimentelle Ergebnisse auf zwei weit verbreiteten SLT-Datensätzen, nämlich PHOENIX-2014T und CSL-Daily, zeigen, dass der vorgeschlagene XmDA-Rahmen die Baseline-Modelle signifikant und konsistent übertrifft. Umfassende Analysen bestätigen unsere Behauptung, dass XmDA die Erzeugung von gesprochenem Sprachtext verbessert, indem er die Darstellungsdistanz zwischen Videos und Texten verringert sowie die Verarbeitung von seltenen Wörtern und langen Sätzen optimiert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Cross-modality Data Augmentation für End-to-End Sign Language Translation | Paper | HyperAI