HyperAIHyperAI
vor 9 Tagen

StepNet: Raumzeitliches, teilbewusstes Netzwerk für die Erkennung isolierter Gebärdensprache

Xiaolong Shen, Zhedong Zheng, Yi Yang
StepNet: Raumzeitliches, teilbewusstes Netzwerk für die Erkennung isolierter Gebärdensprache
Abstract

Das Ziel der Gebärdenspracherkennung (SLR) besteht darin, Menschen mit Hörbehinderung oder Gehörlosigkeit dabei zu unterstützen, die Kommunikationsschwierigkeiten zu überwinden. Die meisten existierenden Ansätze lassen sich typischerweise in zwei Kategorien einteilen: auf Skelett- und auf RGB-Basis basierende Methoden. Beide Ansätze weisen jedoch erhebliche Grenzen auf. Skelett-basierte Verfahren berücksichtigen keine Gesichtsausdrücke, während RGB-basierte Ansätze oft die fein strukturierten Handformen vernachlässigen. Um beide Limitationen zu überwinden, schlagen wir einen neuen Ansatz namens Spatial-temporal Part-aware network (StepNet) vor, der auf RGB-Teilen basiert. Wie der Name bereits andeutet, besteht StepNet aus zwei Modulen: Part-level Spatial Modeling und Part-level Temporal Modeling. Insbesondere erfasst das Part-level Spatial Modeling automatisch appearancesbasierte Merkmale, wie Hände und Gesichter, im Merkmalsraum, ohne dass keypoint-basierte Annotationen erforderlich sind. Gleichzeitig extrahiert das Part-level Temporal Modeling implizit sowohl langfristige als auch kurzfristige Kontextinformationen, um zeitlich relevante Merkmale zu erfassen. Umfangreiche Experimente zeigen, dass StepNet dank seiner räumlich-zeitlichen Module eine konkurrenzfähige Top-1 Per-instance Genauigkeit auf drei gängigen SLR-Benchmark-Datensätzen erreicht: 56,89 % auf WLASL, 77,2 % auf NMFs-CSL und 77,1 % auf BOBSL. Zudem ist der vorgeschlagene Ansatz mit optischen Fluss-Eingaben kompatibel und kann bei Fusionsintegration eine überlegene Leistung erzielen. Für Menschen mit Hörbehinderung hoffen wir, dass unsere Arbeit einen ersten Schritt in Richtung effektiverer Kommunikationshilfen darstellt.

StepNet: Raumzeitliches, teilbewusstes Netzwerk für die Erkennung isolierter Gebärdensprache | Neueste Forschungsarbeiten | HyperAI