HyperAIHyperAI
vor 9 Tagen

Kontinuierliche Gebärdenspracherkennung mit Korrelationsnetzwerk

Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng
Kontinuierliche Gebärdenspracherkennung mit Korrelationsnetzwerk
Abstract

Körperbewegungstrajektorien sind ein wesentlicher Hinweis zur Identifizierung von Aktionen in Videos. Diese Körpertrajektorien werden in der Gebärdensprache hauptsächlich durch Hände und Gesicht über aufeinanderfolgende Frames vermittelt. Derzeitige Ansätze zur kontinuierlichen Gebärdenspracherkennung (Continuous Sign Language Recognition, CSLR) verarbeiten jedoch die Frames unabhängig voneinander, wodurch die Erfassung von über Frames hinweg verlaufenden Bewegungstrajektorien unzureichend ist und die Erkennung von Gebärden beeinträchtigt wird. Um diesen Limitationen entgegenzuwirken, schlagen wir ein Korrelationsnetzwerk (CorrNet) vor, das explizit Körpertrajektorien über Frames hinweg erfasst und nutzt, um Gebärden zu identifizieren. Konkret wird zunächst ein Korrelationsmodul eingeführt, das dynamisch Korrelationskarten zwischen dem aktuellen Frame und benachbarten Frames berechnet, um die Bewegungstrajektorien aller räumlichen Patche zu identifizieren. Anschließend wird ein Identifikationsmodul vorgestellt, das dynamisch die Körpertrajektorien innerhalb dieser Korrelationskarten hervorhebt. Dadurch erzeugte Merkmale können ein umfassendes Bild lokaler zeitlicher Bewegungen erhalten, um eine Gebärde zu erkennen. Aufgrund seiner speziellen Ausrichtung auf Körpertrajektorien erreicht CorrNet eine neue state-of-the-art Genauigkeit auf vier großen Datensätzen: PHOENIX14, PHOENIX14-T, CSL-Daily und CSL. Eine umfassende Vergleichsstudie mit früheren räumlich-zeitlichen Schlussfolgerungsverfahren bestätigt die Wirksamkeit von CorrNet. Visualisierungen zeigen die Wirkung von CorrNet, die menschlichen Körpertrajektorien über benachbarte Frames hinweg zu verstärken.