HyperAIHyperAI

Command Palette

Search for a command to run...

Skeleton-basierte mehrmodale Signspracherkennung

Songyao Jiang Bin Sun Lichen Wang Yue Bai Kunpeng Li Yun Fu

Zusammenfassung

Gebärden Sprache wird häufig von gehörlosen oder sprachbehinderten Menschen zur Kommunikation verwendet, erfordert jedoch erhebliche Anstrengung zur Beherrschung. Die Gebärden-Sprache-Erkennung (Sign Language Recognition, SLR) zielt darauf ab, die Kommunikationsschwelle zwischen Gebärden-Sprache-Nutzern und anderen zu überbrücken, indem sie Gebärden aus gegebenen Videos erkennen. Es handelt sich um eine essenzielle, jedoch herausfordernde Aufgabe, da Gebärden durch schnelle und komplexe Bewegungen von Handgesten, Körperhaltung und sogar Gesichtsausdrücken ausgeführt werden. In letzter Zeit gewinnt die aktionsbasierte Erkennung auf der Grundlage von Skelett-Daten zunehmend an Aufmerksamkeit, da sie unabhängig von Variationen zwischen Subjekt und Hintergrund ist. Dennoch bleibt die skelettbasierte SLR weiterhin in der Erforschung, da fehlende Annotationen von Hand-Schlüsselpunkten ein Hindernis darstellen. Einige Ansätze haben versucht, Hand-Detektoren in Kombination mit Pose-Estimation-Modellen einzusetzen, um Hand-Schlüsselpunkte zu extrahieren und mittels neuronalen Netzen die Gebärden-Sprache zu erkennen, doch keiner dieser Ansätze übertrifft die Leistung von RGB-basierten Methoden. Um dies zu beheben, schlagen wir einen neuartigen, skelettbewussten multimodalen SLR-Framework (SAM-SLR) vor, der multimodale Informationen nutzt, um eine höhere Erkennungsrate zu erzielen. Konkret stellen wir ein Sign Language Graph Convolution Network (SL-GCN) vor, um die eingebetteten Dynamiken zu modellieren, sowie ein neuartiges separables räumlich-zeitliches Faltungsnetzwerk (SSTCN), um Skelettmerkmale effektiv auszunutzen. Zusätzlich werden die Modalitäten RGB und Tiefeninformation in unseren Rahmen integriert und zusammengeführt, um globale Informationen bereitzustellen, die die skelettbasierten Methoden SL-GCN und SSTCN ergänzen. Insgesamt erreicht SAM-SLR die höchste Leistung sowohl im RGB- (98,42 %) als auch im RGB-D-Track (98,53 %) der 2021 Looking at People Large Scale Signer Independent Isolated SLR Challenge. Unser Code ist unter https://github.com/jackyjsy/CVPR21Chal-SLR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Skeleton-basierte mehrmodale Signspracherkennung | Paper | HyperAI