Siformer: Feature-isoliertes Transformer-Modell für eine effiziente, auf Skeletten basierende Gebärdensprachenerkennung
Die Signalsprachenerkennung (SLR) bezieht sich auf die automatische Interpretation von Signatur-Glosses aus gegebenen Videos. Dieses Forschungsfeld stellt eine komplexe Herausforderung im Bereich des Computersehens dar, bedingt durch die schnellen und komplexen Bewegungen, die in Signersprachen inhärent sind und Handgesten, Körperhaltungen sowie sogar Gesichtsausdrücke umfassen. In letzter Zeit hat die handgestützte Aktionserkennung auf Basis von Skelettdaten zunehmend Aufmerksamkeit gefunden, da sie die Bewältigung von Variationen in Personen und Hintergründen unabhängig voneinander ermöglicht. Allerdings weisen aktuelle skelettbasierte SLR-Methoden drei wesentliche Einschränkungen auf: 1) Sie berücksichtigen oft nicht die Bedeutung realistischer Handpose-Darstellungen, wobei die meisten Studien SLR-Modelle auf nicht-realistischen skelettalen Repräsentationen trainieren; 2) Sie gehen häufig von vollständiger Datenverfügbarkeit sowohl im Trainings- als auch im Inferenzstadium aus und erfassen die komplexen Beziehungen zwischen verschiedenen Körperteilen kollektiv; 3) Diese Methoden behandeln alle Signatur-Glosses gleichförmig und berücksichtigen nicht die unterschiedlichen Komplexitätsgrade der skelettalen Darstellungen. Um die Realitätsnähe der Hand-Skelett-Darstellungen zu verbessern, stellen wir eine kinematische Methode zur Korrektur der Handpose vor, die Einschränkungen durchsetzt. Um die Auswirkungen fehlender Daten zu mildern, schlagen wir einen feature-isolierten Mechanismus vor, der sich auf die Erfassung lokaler räumlich-zeitlicher Kontexte konzentriert. Dieser Ansatz erfasst den Kontext gleichzeitig und unabhängig von einzelnen Merkmalen, wodurch die Robustheit des SLR-Modells gesteigert wird. Zusätzlich entwickeln wir einen eingabeanpassbaren Inferenzansatz, um der variierenden Komplexität der Signatur-Glosses Rechnung zu tragen und die Berechnungseffizienz sowie Genauigkeit zu optimieren. Experimentelle Ergebnisse belegen die Wirksamkeit unseres Ansatzes, wie sich an der Erreichung eines neuen State-of-the-Art (SOTA)-Ergebnisses auf WLASL100 und LSA64 zeigt. Für WLASL100 erreichen wir eine Top-1-Accuracy von 86,50 %, was einer relativen Verbesserung von 2,39 % gegenüber dem vorherigen SOTA entspricht. Für LSA64 erreichen wir eine Top-1-Accuracy von 99,84 %. Die Artefakte und der Quellcode im Zusammenhang mit dieser Studie sind öffentlich zugänglich (https://github.com/mpuu00001/Siformer.git).