HyperAIHyperAI

Command Palette

Search for a command to run...

Sign Language Recognition mittels deformierbarer 3D-Faltungen und modulierter graphbasierter Faltungsnetzwerke

Gerasimos Potamianos Katerina Papadimitriou

Zusammenfassung

Die automatische Gebärdenspracherkennung (SLR) bleibt eine herausfordernde Aufgabe, insbesondere wenn ausschließlich RGB-Videodaten (also ohne Tiefeninformation oder spezielle Handschuh-basierte Eingaben) und unter einem signer-unabhängigen (SI) Rahmenbedingungen verwendet werden, bedingt durch individuelle Unterschiede im Gebärdenstil. In diesem Artikel behandeln wir die SI-isolierte SLR aus RGB-Videos und stellen einen innovativen Deep-Learning-Framework vor, der multimodale Erscheinungs- und Skelett-basierte Informationen nutzt. Konkret führen wir erstmals in der SLR drei Komponenten ein: (i) eine modifizierte Version des ResNet2+1D-Netzwerks zur Erfassung von Gebärdenerscheinungsinformationen, bei der räumliche und zeitliche Faltungen durch ihre verformbaren (deformable) Varianten ersetzt werden, wodurch sowohl ein hoher räumlicher Modellierungsanspruch als auch eine bewegungsadaptive Anpassungsfähigkeit erreicht werden; (ii) ein neuartiges spatio-temporales Graph-Convolutional-Netzwerk (ST-GCN), das eine Variante des Graphen-Convolutional-Netzwerks (GCN) integriert, das Gewichts- und Affinitätsmodulationen beinhaltet, um vielfältige Korrelationen zwischen verschiedenen Körperteilen jenseits der physikalischen menschlichen Skelettstruktur zu modellieren, gefolgt von einer Self-Attention-Schicht und einer zeitlichen Faltung; und (iii) den „PIXIE“-Regressor für 3D-Körperpose und -form, der eine 3D-Gelenk-Rotationsparametrisierung erzeugt, die zur Konstruktion des ST-GCN-Graphen dient. Beide Ströme – basierend auf Erscheinung und Skelett – werden im vorgeschlagenen System zusammengeführt und an zwei Datensätzen isolierter Gebärden evaluiert, einer in Türkisch und einer in Griechisch. Unser System erreicht auf dem zweiten Datensatz eine Leistung, die die der State-of-the-Art übertrifft, mit einer relativen Fehlerreduktion von 53 % (absolute Reduktion um 2,45 %), während es auf dem ersten Datensatz mit dem besten bisher berichteten System konkurrieren kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sign Language Recognition mittels deformierbarer 3D-Faltungen und modulierter graphbasierter Faltungsnetzwerke | Paper | HyperAI