vor 9 Tagen

Skeleton-basierte mehrmodale Signspracherkennung

Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu

Abstract

Gebärden Sprache wird häufig von gehörlosen oder sprachbehinderten Menschen zur Kommunikation verwendet, erfordert jedoch erhebliche Anstrengung zur Beherrschung. Die Gebärden-Sprache-Erkennung (Sign Language Recognition, SLR) zielt darauf ab, die Kommunikationsschwelle zwischen Gebärden-Sprache-Nutzern und anderen zu überbrücken, indem sie Gebärden aus gegebenen Videos erkennen. Es handelt sich um eine essenzielle, jedoch herausfordernde Aufgabe, da Gebärden durch schnelle und komplexe Bewegungen von Handgesten, Körperhaltung und sogar Gesichtsausdrücken ausgeführt werden. In letzter Zeit gewinnt die aktionsbasierte Erkennung auf der Grundlage von Skelett-Daten zunehmend an Aufmerksamkeit, da sie unabhängig von Variationen zwischen Subjekt und Hintergrund ist. Dennoch bleibt die skelettbasierte SLR weiterhin in der Erforschung, da fehlende Annotationen von Hand-Schlüsselpunkten ein Hindernis darstellen. Einige Ansätze haben versucht, Hand-Detektoren in Kombination mit Pose-Estimation-Modellen einzusetzen, um Hand-Schlüsselpunkte zu extrahieren und mittels neuronalen Netzen die Gebärden-Sprache zu erkennen, doch keiner dieser Ansätze übertrifft die Leistung von RGB-basierten Methoden. Um dies zu beheben, schlagen wir einen neuartigen, skelettbewussten multimodalen SLR-Framework (SAM-SLR) vor, der multimodale Informationen nutzt, um eine höhere Erkennungsrate zu erzielen. Konkret stellen wir ein Sign Language Graph Convolution Network (SL-GCN) vor, um die eingebetteten Dynamiken zu modellieren, sowie ein neuartiges separables räumlich-zeitliches Faltungsnetzwerk (SSTCN), um Skelettmerkmale effektiv auszunutzen. Zusätzlich werden die Modalitäten RGB und Tiefeninformation in unseren Rahmen integriert und zusammengeführt, um globale Informationen bereitzustellen, die die skelettbasierten Methoden SL-GCN und SSTCN ergänzen. Insgesamt erreicht SAM-SLR die höchste Leistung sowohl im RGB- (98,42 %) als auch im RGB-D-Track (98,53 %) der 2021 Looking at People Large Scale Signer Independent Isolated SLR Challenge. Unser Code ist unter https://github.com/jackyjsy/CVPR21Chal-SLR verfügbar.