Selbstbetonendes Netzwerk für die kontinuierliche Gebärdenspracherkennung

Hand und Gesicht spielen eine entscheidende Rolle bei der Ausdrucksweise von Gebärdensprache. Ihre Merkmale werden typischerweise gezielt genutzt, um die Systemleistung zu verbessern. Um jedoch visuelle Repräsentationen effektiv zu extrahieren und die Bewegungstrajektorien von Händen und Gesicht zu erfassen, erfordern bisherige Methoden oft hohe Rechenkosten und erhöhte Trainingskomplexität. Häufig werden zusätzliche, rechenintensive Pose-Schätznetzwerke eingesetzt, um menschliche Körperknotenpunkte zu lokalisieren, oder es werden zusätzliche, vorab extrahierte Heatmaps zur Supervision herangezogen. Um dieses Problem zu lösen, schlagen wir ein selbstbetontes Netzwerk (Self-emphasizing Network, SEN) vor, das informative räumliche Regionen auf selbstmotivierte Weise betont, mit nur geringfügigem zusätzlichen Rechenaufwand und ohne zusätzliche teure Supervision. Konkret verwendet SEN zunächst ein leichtgewichtiges Unternetzwerk, um lokale räumlich-zeitliche Merkmale zu integrieren und informative Bereiche zu identifizieren. Anschließend werden die ursprünglichen Merkmale dynamisch durch Aufmerksamkeitskarten verstärkt. Außerdem wird beobachtet, dass nicht alle Frames gleichwertig zur Erkennung beitragen. Daher stellen wir ein zeitliches selbstbetontes Modul vor, das diskriminative Frames adaptiv betont und überflüssige Frames unterdrückt. Eine umfassende Vergleichsstudie mit früheren Methoden, die Hand- und Gesichtsmerkmale nutzen, zeigt die Überlegenheit unseres Ansatzes – selbst wenn diese Methoden stets erhebliche Rechenkosten verursachen und auf teure externe Supervision angewiesen sind. Bemerkenswerterweise erreicht SEN mit nur geringfügigem zusätzlichen Rechenaufwand neue SOTA-Genauigkeiten auf vier großen Datensätzen: PHOENIX14, PHOENIX14-T, CSL-Daily und CSL. Visualisierungen bestätigen die Wirkung von SEN bei der Betonung informativer räumlicher und zeitlicher Merkmale. Der Quellcode ist unter https://github.com/hulianyuyy/SEN_CSLR verfügbar.