HyperAIHyperAI

Command Palette

Search for a command to run...

Feinabstimmung von Signalspracherkennungsmodellen: ein technischer Bericht

Maxim Novopoltsev Leonid Verkhovtsev Ruslan Murtazin Dmitriy Milevich Iuliia Zemtsova

Zusammenfassung

Die Gebärdenspracherkennung (Sign Language Recognition, SLR) ist eine essenzielle, jedoch herausfordernde Aufgabe, da Gebärdensprachen durch schnelle und komplexe Bewegungen der Hände, Körperhaltungen sowie sogar Gesichtsausdrücke geprägt sind. In dieser Arbeit untersuchten wir zwei zentrale Fragen: Inwieweit das Fine-Tuning auf Datensätzen anderer Gebärdensprachen die Erkennungsqualität verbessert, und ob eine Echtzeit-Erkennung ohne Verwendung einer GPU möglich ist. Drei verschiedene Sprachdatensätze wurden verwendet, um die Modelle zu validieren: American Sign Language (WLASL), Türkisch (AUTSL) und Russisch (RSL). Die durchschnittliche Geschwindigkeit des Systems erreichte 3 Vorhersagen pro Sekunde, was die Anforderungen für Anwendungen in Echtzeit erfüllt. Das entwickelte Modell (Prototyp) wird Menschen mit Sprach- oder Hörbehinderung ermöglichen, über das Internet mit anderen zu kommunizieren. Zudem untersuchten wir, wie die zusätzliche Schulung des Modells auf einer anderen Gebärdensprache sich auf die Erkennungsqualität auswirkt. Die Ergebnisse zeigen, dass eine weitere Schulung des Modells an Daten einer anderen Gebärdensprache nahezu immer zu einer Verbesserung der Gestenerkennungsqualität führt. Außerdem stellen wir den Quellcode zur Verfügung, um die Modelltrainingsexperimente nachzuvollziehen, Modelle in das ONNX-Format zu konvertieren und Echtzeit-Gestenerkennung durchzuführen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Feinabstimmung von Signalspracherkennungsmodellen: ein technischer Bericht | Paper | HyperAI