vor 9 Tagen

Kontext ist entscheidend: Self-Attention für die Gebärdenspracherkennung

Fares Ben Slimane, Mohamed Bouguessa

Abstract

In diesem Artikel wird ein Aufmerksamkeitsnetzwerk für die Aufgabe der kontinuierlichen Gebärdensprachenerkennung vorgestellt. Der vorgeschlagene Ansatz nutzt ko-independente Datenströme, um die verschiedenen Modalitäten der Gebärdensprache zu modellieren. Diese unterschiedlichen Informationskanäle können eine komplexe zeitliche Struktur miteinander teilen. Daher wenden wir Aufmerksamkeit an, um die Synchronisation zu unterstützen und die verschlungenen Abhängigkeiten zwischen den verschiedenen Komponenten der Gebärdensprache besser zu erfassen. Obwohl die Gebärdensprache mehrkanalig ist, stellen Handformen die zentralen Entitäten bei der Deutung von Gebärden dar. Die korrekte Interpretation einer Gebärde hängt entscheidend davon ab, wie die Handform im angemessenen Kontext wahrgenommen wird. Berücksichtigung dieses Aspekts nutzen wir die Aufmerksamkeitsmechanik, um die Handmerkmale effizient mit ihrem passenden räumlich-zeitlichen Kontext zu aggregieren und somit die Erkennung von Gebärden zu verbessern. Wir konnten feststellen, dass das Modell durch diese Vorgehensweise in der Lage ist, die wesentlichen Komponenten der Gebärdensprache zu identifizieren, die sich um die dominante Hand und die Gesichtsregionen drehen. Wir testen unser Modell auf dem Standard-Datensatz RWTH-PHOENIX-Weather 2014 und erzielen dabei konkurrenzfähige Ergebnisse.