HyperAIHyperAI
vor 9 Tagen

Sign Pose-basierter Transformer für die Wortebene Zeichensprachenerkennung

{Marek Hrúz, Matyáš Boháček}
Sign Pose-basierter Transformer für die Wortebene Zeichensprachenerkennung
Abstract

In diesem Artikel präsentieren wir ein System zur Wort-Level-Handzeichenerkennung basierend auf dem Transformer-Modell. Unser Ziel ist eine Lösung mit geringem Rechenaufwand, da wir großes Potenzial für die Anwendung solcher Erkennungssysteme auf mobilen Geräten sehen. Die Erkennung basiert auf der Schätzung der Körperpose in Form von 2D-Landmarkenpositionen. Wir führen eine robuste Pose-Normalisierungseingabe ein, die den Signerraum berücksichtigt und die Handposes in einem separaten lokalen Koordinatensystem verarbeitet, unabhängig von der Körperpose. Experimentell zeigen wir den erheblichen Einfluss dieser Normalisierung auf die Genauigkeit unseres vorgeschlagenen Systems. Zudem führen wir mehrere Erweiterungen der Körperpose ein, die die Genauigkeit weiter verbessern, darunter eine neuartige sequenzielle Gelenkrotationserweiterung. Mit allen Komponenten implementiert erreichen wir state-of-the-art-Top-1-Ergebnisse auf den Datensätzen WLASL und LSA64. Für WLASL können wir 63,18 % der Zeichenaufnahmen im 100-Gloss-Unterdatensatz korrekt erkennen, was einer relativen Verbesserung von 5 % gegenüber dem vorherigen Stand der Technik entspricht. Für den 300-Gloss-Unterdatensatz erreichen wir eine Erkennungsrate von 43,78 %, was einer relativen Verbesserung von 3,8 % entspricht. Auf dem LSA64-Datensatz erreichen wir eine Test-Erkennungsgenauigkeit von 100 %.