HyperAIHyperAI
vor 9 Tagen

Verbindungsorientierte zeitliche Fusion für die Gebärdensprachübersetzung

{Meng, Zheng jun; Wang, Wen gang; Zha, Dan; Zhou, Shuo; Guo, Wang}
Verbindungsorientierte zeitliche Fusion für die Gebärdensprachübersetzung
Abstract

Die kontinuierliche Gebärdensprachübersetzung (Continuous Sign Language Translation, CSLT) ist ein schwach überwachtes Problem, das darauf abzielt, visionbasierte Videos unter komplexen Gebärdensprachstrukturen in natürliche Sprachen zu übersetzen, wobei die geordneten Wörter in einer Satzbezeichnung keine exakten Grenzen für einzelne Gebärdenaussagen im Video aufweisen. In diesem Artikel wird eine hybride tiefgreifende Architektur vorgestellt, die aus einem zeitlichen Faltungsmodul (Temporal Convolution Module, TCOV), einem bidirektionalen gateten rekurrenten Einheitsmodul (Bidirectional Gated Recurrent Unit Module, BGRU) und einem Fusionslagenmodul (Fusion Layer Module, FL) besteht, um das CSLT-Problem zu lösen. Das TCOV erfasst kurzfristige zeitliche Übergänge in benachbarten Clip-Features (lokale Muster), während das BGRU langfristige Kontextübergänge über die zeitliche Dimension hinweg bewahrt (globale Muster). Das FL verknüpft die Merkmalsdarstellungen von TCOV und BGRU, um deren ergänzende Beziehung (wechselseitige Muster) zu lernen. Daher wird eine gemeinsame verbindungsorientierte zeitliche Fusionsmechanik (Joint Connectionist Temporal Fusion, CTF) vorgeschlagen, um die Stärken jedes Moduls optimal zu nutzen. Die vorgeschlagene gemeinsame CTC-Verlustoptimierung sowie die Fusionsstrategie basierend auf tiefen Klassifikations-Scores sind darauf ausgelegt, die Leistung zu steigern. Mit lediglich einer Trainingsdurchführung erreicht unser Modell unter CTC-Beschränkungen eine vergleichbare Leistung wie andere existierende Methoden, die mehrere EM-Iterationen erfordern. Die Experimente wurden an einem Benchmark, genauer gesagt am RWTH-PHOENIX-Weather-Datensatz, durchgeführt und bestätigt, was die Wirksamkeit der vorgeschlagenen Methode belegt.