HyperAIHyperAI
vor 9 Tagen

Kontinuierliche Gebärdenspracherkennung durch Kreuzmodale Ausrichtung von Videound Text-Embeddings in einem gemeinsamen latenten Raum

{Petros Daras, DIMITRIOS KONSTANTINIDIS, Kosmas Dimitropoulos, Ilias Papastratis}
Abstract

Die kontinuierliche Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) bezeichnet das anspruchsvolle Problem der Erkennung von Gebärdenglossen und deren zeitlicher Grenzen aus schwach annotierten Videosequenzen. Bisherige Ansätze konzentrieren sich überwiegend auf die Extraktion visueller Merkmale und vernachlässigen dabei die textuelle Information sowie die effektive Modellierung der intra-gloss-Abhängigkeiten. In dieser Arbeit wird ein multimodaler Lernansatz vorgestellt, der textuelle Informationen nutzt, um die Leistung visueller CSLR-Systeme zu verbessern. Hierzu werden zunächst zwei leistungsstarke Kodierungsnetzwerke eingesetzt, um Video- und Textembeddings zu erzeugen, bevor diese in eine gemeinsame latente Darstellung abgebildet und ausgerichtet werden. Ziel des vorgeschlagenen multimodalen Alignments ist die Modellierung intra-gloss-Abhängigkeiten sowie die Erzeugung beschreibungsstarker, video-basierter latenter Darstellungen für die CSLR. Der vorgeschlagene Ansatz wird gemeinsam mit den latenten Darstellungen aus Video und Text trainiert. Schließlich werden die ausgerichteten video-basierten latenten Darstellungen mittels eines gemeinsam trainierten Decoders klassifiziert. Umfangreiche Experimente an drei bekannten Gebärdenspracherkennungsdatensätzen sowie Vergleiche mit aktuellen State-of-the-Art-Methoden belegen das hohe Potenzial des vorgeschlagenen Ansatzes.