vor 2 Monaten

Sign Language Recognition mittels deformierbarer 3D-Faltungen und modulierter graphbasierter Faltungsnetzwerke

{Gerasimos Potamianos, Katerina Papadimitriou}

Abstract

Die automatische Gebärdenspracherkennung (SLR) bleibt eine herausfordernde Aufgabe, insbesondere wenn ausschließlich RGB-Videodaten (also ohne Tiefeninformation oder spezielle Handschuh-basierte Eingaben) und unter einem signer-unabhängigen (SI) Rahmenbedingungen verwendet werden, bedingt durch individuelle Unterschiede im Gebärdenstil. In diesem Artikel behandeln wir die SI-isolierte SLR aus RGB-Videos und stellen einen innovativen Deep-Learning-Framework vor, der multimodale Erscheinungs- und Skelett-basierte Informationen nutzt. Konkret führen wir erstmals in der SLR drei Komponenten ein: (i) eine modifizierte Version des ResNet2+1D-Netzwerks zur Erfassung von Gebärdenerscheinungsinformationen, bei der räumliche und zeitliche Faltungen durch ihre verformbaren (deformable) Varianten ersetzt werden, wodurch sowohl ein hoher räumlicher Modellierungsanspruch als auch eine bewegungsadaptive Anpassungsfähigkeit erreicht werden; (ii) ein neuartiges spatio-temporales Graph-Convolutional-Netzwerk (ST-GCN), das eine Variante des Graphen-Convolutional-Netzwerks (GCN) integriert, das Gewichts- und Affinitätsmodulationen beinhaltet, um vielfältige Korrelationen zwischen verschiedenen Körperteilen jenseits der physikalischen menschlichen Skelettstruktur zu modellieren, gefolgt von einer Self-Attention-Schicht und einer zeitlichen Faltung; und (iii) den „PIXIE“-Regressor für 3D-Körperpose und -form, der eine 3D-Gelenk-Rotationsparametrisierung erzeugt, die zur Konstruktion des ST-GCN-Graphen dient. Beide Ströme – basierend auf Erscheinung und Skelett – werden im vorgeschlagenen System zusammengeführt und an zwei Datensätzen isolierter Gebärden evaluiert, einer in Türkisch und einer in Griechisch. Unser System erreicht auf dem zweiten Datensatz eine Leistung, die die der State-of-the-Art übertrifft, mit einer relativen Fehlerreduktion von 53 % (absolute Reduktion um 2,45 %), während es auf dem ersten Datensatz mit dem besten bisher berichteten System konkurrieren kann.