HyperAIHyperAI

Command Palette

Search for a command to run...

Kontext ist entscheidend: Self-Attention für die Gebärdenspracherkennung

Fares Ben Slimane Mohamed Bouguessa

Zusammenfassung

In diesem Artikel wird ein Aufmerksamkeitsnetzwerk für die Aufgabe der kontinuierlichen Gebärdensprachenerkennung vorgestellt. Der vorgeschlagene Ansatz nutzt ko-independente Datenströme, um die verschiedenen Modalitäten der Gebärdensprache zu modellieren. Diese unterschiedlichen Informationskanäle können eine komplexe zeitliche Struktur miteinander teilen. Daher wenden wir Aufmerksamkeit an, um die Synchronisation zu unterstützen und die verschlungenen Abhängigkeiten zwischen den verschiedenen Komponenten der Gebärdensprache besser zu erfassen. Obwohl die Gebärdensprache mehrkanalig ist, stellen Handformen die zentralen Entitäten bei der Deutung von Gebärden dar. Die korrekte Interpretation einer Gebärde hängt entscheidend davon ab, wie die Handform im angemessenen Kontext wahrgenommen wird. Berücksichtigung dieses Aspekts nutzen wir die Aufmerksamkeitsmechanik, um die Handmerkmale effizient mit ihrem passenden räumlich-zeitlichen Kontext zu aggregieren und somit die Erkennung von Gebärden zu verbessern. Wir konnten feststellen, dass das Modell durch diese Vorgehensweise in der Lage ist, die wesentlichen Komponenten der Gebärdensprache zu identifizieren, die sich um die dominante Hand und die Gesichtsregionen drehen. Wir testen unser Modell auf dem Standard-Datensatz RWTH-PHOENIX-Weather 2014 und erzielen dabei konkurrenzfähige Ergebnisse.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp