Raumbezogene Aufmerksamkeitsgesteuerte 3D-Graph-Convolutional Neural Network für die Gebärdenspracherkennung
Die Gebärdensprache ist der Hauptkanal für hörgeschädigte Menschen, um mit anderen zu kommunizieren. Sie ist eine visuelle Sprache, die hochstrukturierte Komponenten aus manuellen und nicht-manuellen Parametern vermittelt, weshalb sie für hörende Menschen eine erhebliche Lernanstrengung erfordert. Die Gebärdenerkennung zielt darauf ab, diese Lernschwierigkeit zu verringern und die Kommunikationslücke zwischen hörgeschädigten Personen und anderen zu schließen. Diese Studie präsentiert eine effiziente Architektur für die Gebärdenerkennung basierend auf einem convolutionalen Graph Neural Network (GCN). Die vorgestellte Architektur besteht aus einer geringen Anzahl separabler 3D-GCN-Schichten, die durch eine räumliche Aufmerksamkeitsmechanismus verbessert werden. Die begrenzte Anzahl von Schichten in der vorgeschlagenen Architektur ermöglicht es, das häufige Problem der Überglättung in tiefen Graph Neural Networks zu vermeiden. Zudem verstärkt der Aufmerksamkeitsmechanismus die räumliche Kontextdarstellung der Gesten. Die vorgeschlagene Architektur wurde auf verschiedenen Datensätzen evaluiert und zeigt herausragende Ergebnisse.