Ein tiefes neuronales Framework zur kontinuierlichen Gebärdenspracherkennung durch iterative Trainierung

Diese Arbeit entwickelt einen kontinuierlichen Signalsprache-(SL)-Erkennungsrahmen basierend auf tiefen neuronalen Netzen, der Videos von SL-Sätzen direkt in Folgen geordneter Gloss-Labels umwandelt. Frühere Ansätze zur kontinuierlichen SL-Erkennung verwenden typischerweise verborgene Markov-Modelle mit begrenzter Fähigkeit zur Erfassung zeitlicher Informationen. Im Gegensatz dazu nutzt unser vorgeschlagenes Architekturkonzept tiefe konvolutionelle neuronale Netze mit gestapelten temporalen Fusions-Schichten als Merkmalsextraktionsmodul und bidirektionale rekurrente neuronale Netze als Sequenz-Lernmodul. Wir schlagen einen iterativen Optimierungsprozess für unser Architekturkonzept vor, um die Darstellungskapazität tiefer neuronalen Netze unter Verwendung begrenzter Daten voll auszunutzen. Zunächst trainieren wir das end-to-end-Erkennungsmodell zur Generierung von Alignments, um anschließend diese Alignment-Vorschläge als starke überwachende Information zu nutzen, um direkt das Merkmalsextraktionsmodul zu optimieren. Dieser Trainingsprozess kann iterativ durchgeführt werden, um kontinuierliche Verbesserungen der Erkennungsleistung zu erzielen. Darüber hinaus tragen wir durch die Untersuchung der multimodalen Fusion von RGB-Bildern und Optischen Flüssen in der Signalsprache bei. Unser Ansatz wird an zwei anspruchsvollen SL-Erkennungsbenchmark-Datenbanken evaluiert und erreicht auf beiden Datensätzen eine relative Verbesserung gegenüber dem Stand der Technik von mehr als 15 %.