HyperAIHyperAI

Command Palette

Search for a command to run...

StepNet: Raumzeitliches, teilbewusstes Netzwerk für die Erkennung isolierter Gebärdensprache

Xiaolong Shen Zhedong Zheng Yi Yang

Zusammenfassung

Das Ziel der Gebärdenspracherkennung (SLR) besteht darin, Menschen mit Hörbehinderung oder Gehörlosigkeit dabei zu unterstützen, die Kommunikationsschwierigkeiten zu überwinden. Die meisten existierenden Ansätze lassen sich typischerweise in zwei Kategorien einteilen: auf Skelett- und auf RGB-Basis basierende Methoden. Beide Ansätze weisen jedoch erhebliche Grenzen auf. Skelett-basierte Verfahren berücksichtigen keine Gesichtsausdrücke, während RGB-basierte Ansätze oft die fein strukturierten Handformen vernachlässigen. Um beide Limitationen zu überwinden, schlagen wir einen neuen Ansatz namens Spatial-temporal Part-aware network (StepNet) vor, der auf RGB-Teilen basiert. Wie der Name bereits andeutet, besteht StepNet aus zwei Modulen: Part-level Spatial Modeling und Part-level Temporal Modeling. Insbesondere erfasst das Part-level Spatial Modeling automatisch appearancesbasierte Merkmale, wie Hände und Gesichter, im Merkmalsraum, ohne dass keypoint-basierte Annotationen erforderlich sind. Gleichzeitig extrahiert das Part-level Temporal Modeling implizit sowohl langfristige als auch kurzfristige Kontextinformationen, um zeitlich relevante Merkmale zu erfassen. Umfangreiche Experimente zeigen, dass StepNet dank seiner räumlich-zeitlichen Module eine konkurrenzfähige Top-1 Per-instance Genauigkeit auf drei gängigen SLR-Benchmark-Datensätzen erreicht: 56,89 % auf WLASL, 77,2 % auf NMFs-CSL und 77,1 % auf BOBSL. Zudem ist der vorgeschlagene Ansatz mit optischen Fluss-Eingaben kompatibel und kann bei Fusionsintegration eine überlegene Leistung erzielen. Für Menschen mit Hörbehinderung hoffen wir, dass unsere Arbeit einen ersten Schritt in Richtung effektiverer Kommunikationshilfen darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
StepNet: Raumzeitliches, teilbewusstes Netzwerk für die Erkennung isolierter Gebärdensprache | Paper | HyperAI