Feinabstimmung von Signalspracherkennungsmodellen: ein technischer Bericht

Die Gebärdenspracherkennung (Sign Language Recognition, SLR) ist eine essenzielle, jedoch herausfordernde Aufgabe, da Gebärdensprachen durch schnelle und komplexe Bewegungen der Hände, Körperhaltungen sowie sogar Gesichtsausdrücke geprägt sind. In dieser Arbeit untersuchten wir zwei zentrale Fragen: Inwieweit das Fine-Tuning auf Datensätzen anderer Gebärdensprachen die Erkennungsqualität verbessert, und ob eine Echtzeit-Erkennung ohne Verwendung einer GPU möglich ist. Drei verschiedene Sprachdatensätze wurden verwendet, um die Modelle zu validieren: American Sign Language (WLASL), Türkisch (AUTSL) und Russisch (RSL). Die durchschnittliche Geschwindigkeit des Systems erreichte 3 Vorhersagen pro Sekunde, was die Anforderungen für Anwendungen in Echtzeit erfüllt. Das entwickelte Modell (Prototyp) wird Menschen mit Sprach- oder Hörbehinderung ermöglichen, über das Internet mit anderen zu kommunizieren. Zudem untersuchten wir, wie die zusätzliche Schulung des Modells auf einer anderen Gebärdensprache sich auf die Erkennungsqualität auswirkt. Die Ergebnisse zeigen, dass eine weitere Schulung des Modells an Daten einer anderen Gebärdensprache nahezu immer zu einer Verbesserung der Gestenerkennungsqualität führt. Außerdem stellen wir den Quellcode zur Verfügung, um die Modelltrainingsexperimente nachzuvollziehen, Modelle in das ONNX-Format zu konvertieren und Echtzeit-Gestenerkennung durchzuführen.