HyperAIHyperAI
vor 9 Tagen

Raum-Zeit-Multi-Cue-Netzwerk für die kontinuierliche Gebärdensprachenerkennung

Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li
Raum-Zeit-Multi-Cue-Netzwerk für die kontinuierliche Gebärdensprachenerkennung
Abstract

Trotz des jüngsten Erfolgs von Deep Learning bei der kontinuierlichen Gebärdenspracheerkennung (CSLR) konzentrieren sich tiefe Modelle typischerweise auf die diskriminativsten Merkmale und ignorieren andere potenziell nicht-triviale und informative Inhalte. Diese Eigenschaft begrenzt ihre Fähigkeit erheblich, implizite visuelle Grammatiken hinter der Zusammenarbeit verschiedener visueller Hinweise (z. B. Handform, Gesichtsausdruck und Körperhaltung) zu erlernen. Durch die Integration von Multi-Cue-Lernen in den Entwurf neuronalen Netzwerks schlagen wir ein räumlich-zeitliches Multi-Cue (STMC)-Netzwerk zur Lösung des sequenzbasierten Sichtproblems vor. Unser STMC-Netzwerk besteht aus einem räumlichen Multi-Cue (SMC)-Modul und einem zeitlichen Multi-Cue (TMC)-Modul. Das SMC-Modul ist der räumlichen Repräsentation gewidmet und zerlegt explizit visuelle Merkmale verschiedener Hinweise mithilfe eines eigenständigen Pose-Schätzungszweigs. Das TMC-Modul modelliert zeitliche Korrelationen entlang zweier paralleler Pfade, nämlich intra-Cue und inter-Cue, um die Einzigartigkeit der einzelnen Hinweise zu bewahren und deren Zusammenarbeit zu erforschen. Schließlich entwerfen wir eine gemeinsame Optimierungsstrategie, um den end-to-end-Sequenzlernprozess des STMC-Netzwerks zu realisieren. Zur Validierung der Wirksamkeit führen wir Experimente auf drei großen CSLR-Benchmark-Datenbanken durch: PHOENIX-2014, CSL und PHOENIX-2014-T. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode auf allen drei Benchmarks neue State-of-the-Art-Leistungen erzielt.