HyperAIHyperAI

Command Palette

Search for a command to run...

Isolierte Signaturerkennung aus RGB-Video mittels Pose-Flow und Self-Attention

Joni Dambre Mieke Van Herreweghe Mathieu De Coster

Zusammenfassung

Die automatische Gebärdenspracherkennung befindet sich an der Schnittstelle zwischen Natural Language Processing (NLP) und Computer Vision. Die äußerst erfolgreichen Transformer-Architekturen, die auf Multi-Head-Attention basieren, stammen ursprünglich aus dem Bereich des NLP. Das Video Transformer Network (VTN) stellt eine Anpassung dieses Konzepts für Aufgaben der Videoverstehens, beispielsweise der Aktionserkennung, dar. Aufgrund der häufig begrenzten Verfügbarkeit an gelabelten Daten für die Trainingsphase automatischer Gebärdenspracherkennung kann das VTN in diesem Bereich jedoch seine volle Leistungsfähigkeit nicht entfalten. In dieser Arbeit reduzieren wir die Auswirkung dieser Dateneinschränkung, indem wir automatisch nützliche Informationen aus Gebärdensprachvideos vorverarbeiten. In unserem Ansatz werden im multimodalen Setup verschiedene Informationsformen einem VTN zur Verfügung gestellt: Dazu zählen pro-Rahmen menschliche Gelenkpunkte (mittels OpenPose extrahiert), um Körperbewegungen zu erfassen, sowie Handausschnitte, um die Formen (und deren Entwicklung) der Hände zu erfassen. Wir evaluieren unsere Methode auf dem kürzlich veröffentlichten AUTSL-Datensatz für isolierte Gebärdenerkennung und erreichen eine Genauigkeit von 92,92 % auf dem Testset, wobei ausschließlich RGB-Daten verwendet werden. Für den Vergleich: Die VTN-Architektur ohne Handausschnitte und Pose-Flow erreicht lediglich 82 % Genauigkeit. Eine qualitative Analyse unseres Modells deutet auf ein weiteres großes Potenzial multimodaler Multi-Head-Attention im Kontext der Gebärdenspracherkennung hin.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Isolierte Signaturerkennung aus RGB-Video mittels Pose-Flow und Self-Attention | Paper | HyperAI