Erkennung von Gebärden ohne Frame-Sequenzierungseinschränkungen: Ein Proof of Concept für die Argentinische GebärdenSprache
Die automatische Gebärdenspracherkennung (SLR) ist ein zentrales Thema innerhalb der Bereiche Mensch-Computer-Interaktion und maschinelles Lernen. Einerseits stellt sie eine komplexe Herausforderung dar, die die Integration verschiedener Fachgebiete erfordert, wie beispielsweise Videobearbeitung, Bildverarbeitung, intelligente Systeme und Linguistik. Andererseits könnte eine robuste Erkennung von Gebärdensprache die Übersetzungsprozesse unterstützen und die Integration hörgeschädigter Menschen sowie die Vermittlung der Gebärdensprache an hörende Personen fördern.SLR-Systeme verwenden üblicherweise verborgene Markov-Modelle (HMM), Dynamic Time Warping (DTW) oder ähnliche Ansätze zur Erkennung von Gebärden. Diese Techniken nutzen die zeitliche Reihenfolge der Bildfolgen, um die Anzahl der Hypothesen zu reduzieren. In diesem Beitrag wird ein allgemeines probabilistisches Modell zur Gebärdenklassifikation vorgestellt, das Sub-Klassifikatoren, die auf unterschiedlichen Merkmalstypen wie Position, Bewegung und Handform basieren, kombiniert. Das Modell setzt in allen Klassifikationsphasen einen Bag-of-Words-Ansatz ein, um die Hypothese zu prüfen, dass die Reihenfolge der Merkmale für die Erkennung nicht entscheidend ist. Das vorgeschlagene Modell erreichte eine Genauigkeit von 97 % auf einem Datensatz der argentinischen Gebärdensprache mit 64 Gebärdenklassen und 3200 Proben, was einige Hinweise darauf liefert, dass eine Erkennung ohne Berücksichtigung der Reihenfolge tatsächlich möglich ist.