HyperAIHyperAI
vor 9 Tagen

Multi-Stream Keypoint Attention Network für die Gebärdenspracherkennung und -übersetzung

Mo Guan, Yan Wang, Guangkun Ma, Jiarui Liu, Mingzu Sun
Multi-Stream Keypoint Attention Network für die Gebärdenspracherkennung und -übersetzung
Abstract

Die GebärdenSprache dient als nicht-vokale Kommunikationsform, bei der Informationen und Bedeutungen durch Gesten, Gesichtsausdrücke und Körperbewegungen vermittelt werden. Die meisten aktuellen Ansätze zur GebärdenSprache-Erkennung (SLR) und -Übersetzung basieren auf RGB-Videoeingaben, die anfällig für Hintergrundveränderungen sind. Durch die Verwendung einer Keypoint-basierten Strategie wird nicht nur der Einfluss von Hintergrundvariationen reduziert, sondern auch der Rechenaufwand des Modells erheblich verringert. Dennoch nutzen gegenwärtige keypoint-basierte Methoden das implizite Wissen, das in Keypoint-Sequenzen enthalten ist, nicht vollständig aus. Um dieser Herausforderung zu begegnen, leiten wir uns von dem menschlichen kognitiven Mechanismus ab, der GebärdenSprache durch die Analyse der Wechselwirkung zwischen Gestenkonfigurationen und zusätzlichen Elementen erkennt. Wir schlagen ein mehrströmiges Keypoint-Attention-Netzwerk vor, um eine Folge von Keypoints zu beschreiben, die von einem leicht verfügbaren Keypoint-Estimator generiert werden. Um die Interaktion zwischen den verschiedenen Strömen zu fördern, untersuchen wir verschiedene Methoden wie Keypoint-Fusion-Strategien, Head-Fusion und Self-Distillation. Das resultierende Framework wird als MSKA-SLR bezeichnet und durch die einfache Hinzufügung eines zusätzlichen Übersetzungsnetzwerks in ein GebärdenSprache-Übersetzungssystem (SLT) erweitert. Wir führen umfassende Experimente auf etablierten Benchmarks wie Phoenix-2014, Phoenix-2014T und CSL-Daily durch, um die Wirksamkeit unseres Ansatzes zu demonstrieren. Insbesondere erreichen wir eine neue state-of-the-art-Leistung bei der GebärdenSprache-Übersetzungsaufgabe des Phoenix-2014T-Datensatzes. Der Quellcode und die Modelle sind unter folgender Adresse zugänglich: https://github.com/sutwangyan/MSKA.