HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstbetonendes Netzwerk für die kontinuierliche Gebärdenspracherkennung

Lianyu Hu Liqing Gao Zekang liu Wei Feng

Zusammenfassung

Hand und Gesicht spielen eine entscheidende Rolle bei der Ausdrucksweise von Gebärdensprache. Ihre Merkmale werden typischerweise gezielt genutzt, um die Systemleistung zu verbessern. Um jedoch visuelle Repräsentationen effektiv zu extrahieren und die Bewegungstrajektorien von Händen und Gesicht zu erfassen, erfordern bisherige Methoden oft hohe Rechenkosten und erhöhte Trainingskomplexität. Häufig werden zusätzliche, rechenintensive Pose-Schätznetzwerke eingesetzt, um menschliche Körperknotenpunkte zu lokalisieren, oder es werden zusätzliche, vorab extrahierte Heatmaps zur Supervision herangezogen. Um dieses Problem zu lösen, schlagen wir ein selbstbetontes Netzwerk (Self-emphasizing Network, SEN) vor, das informative räumliche Regionen auf selbstmotivierte Weise betont, mit nur geringfügigem zusätzlichen Rechenaufwand und ohne zusätzliche teure Supervision. Konkret verwendet SEN zunächst ein leichtgewichtiges Unternetzwerk, um lokale räumlich-zeitliche Merkmale zu integrieren und informative Bereiche zu identifizieren. Anschließend werden die ursprünglichen Merkmale dynamisch durch Aufmerksamkeitskarten verstärkt. Außerdem wird beobachtet, dass nicht alle Frames gleichwertig zur Erkennung beitragen. Daher stellen wir ein zeitliches selbstbetontes Modul vor, das diskriminative Frames adaptiv betont und überflüssige Frames unterdrückt. Eine umfassende Vergleichsstudie mit früheren Methoden, die Hand- und Gesichtsmerkmale nutzen, zeigt die Überlegenheit unseres Ansatzes – selbst wenn diese Methoden stets erhebliche Rechenkosten verursachen und auf teure externe Supervision angewiesen sind. Bemerkenswerterweise erreicht SEN mit nur geringfügigem zusätzlichen Rechenaufwand neue SOTA-Genauigkeiten auf vier großen Datensätzen: PHOENIX14, PHOENIX14-T, CSL-Daily und CSL. Visualisierungen bestätigen die Wirkung von SEN bei der Betonung informativer räumlicher und zeitlicher Merkmale. Der Quellcode ist unter https://github.com/hulianyuyy/SEN_CSLR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp