HyperAIHyperAI
vor 9 Tagen

Isolierte Signaturerkennung aus RGB-Video mittels Pose-Flow und Self-Attention

{Joni Dambre, Mieke Van Herreweghe, Mathieu De Coster}
Isolierte Signaturerkennung aus RGB-Video mittels Pose-Flow und Self-Attention
Abstract

Die automatische Gebärdenspracherkennung befindet sich an der Schnittstelle zwischen Natural Language Processing (NLP) und Computer Vision. Die äußerst erfolgreichen Transformer-Architekturen, die auf Multi-Head-Attention basieren, stammen ursprünglich aus dem Bereich des NLP. Das Video Transformer Network (VTN) stellt eine Anpassung dieses Konzepts für Aufgaben der Videoverstehens, beispielsweise der Aktionserkennung, dar. Aufgrund der häufig begrenzten Verfügbarkeit an gelabelten Daten für die Trainingsphase automatischer Gebärdenspracherkennung kann das VTN in diesem Bereich jedoch seine volle Leistungsfähigkeit nicht entfalten. In dieser Arbeit reduzieren wir die Auswirkung dieser Dateneinschränkung, indem wir automatisch nützliche Informationen aus Gebärdensprachvideos vorverarbeiten. In unserem Ansatz werden im multimodalen Setup verschiedene Informationsformen einem VTN zur Verfügung gestellt: Dazu zählen pro-Rahmen menschliche Gelenkpunkte (mittels OpenPose extrahiert), um Körperbewegungen zu erfassen, sowie Handausschnitte, um die Formen (und deren Entwicklung) der Hände zu erfassen. Wir evaluieren unsere Methode auf dem kürzlich veröffentlichten AUTSL-Datensatz für isolierte Gebärdenerkennung und erreichen eine Genauigkeit von 92,92 % auf dem Testset, wobei ausschließlich RGB-Daten verwendet werden. Für den Vergleich: Die VTN-Architektur ohne Handausschnitte und Pose-Flow erreicht lediglich 82 % Genauigkeit. Eine qualitative Analyse unseres Modells deutet auf ein weiteres großes Potenzial multimodaler Multi-Head-Attention im Kontext der Gebärdenspracherkennung hin.