HyperAIHyperAI
vor 9 Tagen

Erkennung von Gebärdensprache auf Wortebene mit mehrströmigen neuronalen Netzwerken, die sich auf lokale Regionen und skelettierte Informationen konzentrieren

Mizuki Maruyama, Shrey Singh, Katsufumi Inoue, Partha Pratim Roy, Masakazu Iwamura, Michifumi Yoshioka
Erkennung von Gebärdensprache auf Wortebene mit mehrströmigen neuronalen Netzwerken, die sich auf lokale Regionen und skelettierte Informationen konzentrieren
Abstract

Die Wortebenen-Signsprachenerkennung (Word-level Sign Language Recognition, WSLR) hat aufgrund der Erwartung, die Kommunikationsschwierigkeiten zwischen Menschen mit Sprachbehinderung und hörenden Personen zu überwinden, zunehmend Aufmerksamkeit erlangt. Bei der WSLR-Problematik hat ein für die Aktionserkennung entwickelter Ansatz die bisher beste Genauigkeit erzielt. Tatsächlich erscheint es plausibel, dass ein Ansatz zur Aktionserkennung auch in der WSLR gut abschneidet, da die Gebärdensprache als Bewegung angesehen wird. Eine sorgfältige Analyse der Aufgabenstellung zeigt jedoch, dass die Aufgaben der Aktionserkennung und der WSLR grundsätzlich unterschiedlich sind. Daher schlagen wir in diesem Artikel einen neuartigen WSLR-Ansatz vor, der spezifische Informationen berücksichtigt, die für die WSLR-Aufgabe besonders nützlich sind. Wir realisieren dies mittels eines mehrströmigen neuronalen Netzwerks (multi-stream neural network, MSNN), das aus drei Strömen besteht: 1) Basisström, 2) lokaler Bildström und 3) Skelettström. Jeder Ström ist darauf ausgelegt, unterschiedliche Informationsarten zu verarbeiten. Der Basisström bewältigt schnelle und detaillierte Bewegungen der Hände und des Körpers, der lokale Bildström konzentriert sich auf Handformen und Gesichtsausdrücke, während der Skelettström die relativen Positionen von Körper und beiden Händen erfasst. Dieser Ansatz ermöglicht es uns, verschiedene Datentypen zu kombinieren, um eine umfassendere Gestenerkennung zu erreichen. Experimentelle Ergebnisse auf den Datensätzen WLASL und MS-ASL belegen die Wirksamkeit des vorgeschlagenen Verfahrens: Im Vergleich zu herkömmlichen Methoden konnte eine Verbesserung der Top-1-Genauigkeit um etwa 10 % bis 15 % erzielt werden.