SignBERT+: Hand-Modell-berücksichtigendes selbstüberwachtes Vortrainieren für das Verständnis von Gebärdensprache

Die Gestenbildung spielt eine entscheidende Rolle bei der Ausdrucksweise der Gebärdensprache. Aktuelle auf Deep Learning basierende Ansätze zur Gebärdensprachverstehens (SLU) neigen aufgrund unzureichender Datensätze für Gebärdensprachen stark überfitting und leiden unter begrenzbarer Interpretierbarkeit. In diesem Paper stellen wir den ersten selbstüberwachten, vortrainierbaren SignBERT+-Framework vor, der ein modellbasiertes Handprior-Wissen integriert. In unserem Ansatz wird die Handpose als visueller Token betrachtet, der mittels eines kommerziell erhältlichen Detektors abgeleitet wird. Jeder visuelle Token wird mit einer Gestenstatus- und räumlich-zeitlichen Positions-Embedding versehen. Um die verfügbaren Gebärdendaten optimal auszunutzen, führen wir zunächst selbstüberwachtes Lernen durch, um deren statistische Eigenschaften zu modellieren. Dazu entwerfen wir mehrstufige Maskierungsmodellierungsstrategien (Gelenk-, Frame- und Clip-Ebene), um typische Fehlfunktionen bei der Erkennung nachzuahmen. In Kombination mit diesen Maskierungsstrategien integrieren wir ein modellbasiertes Handprior-Wissen, um hierarchische Kontextinformationen entlang der Sequenz besser zu erfassen. Nach dem Vortraining entwerfen wir gezielt einfache, aber effektive Vorhersageköpfe für nachgeschaltete Aufgaben. Um die Wirksamkeit unseres Frameworks zu validieren, führen wir umfangreiche Experimente auf drei zentralen SLU-Aufgaben durch, darunter die Erkennung isolierter und kontinuierlicher Gebärdensprache (SLR) sowie die Gebärdensprachübersetzung (SLT). Die experimentellen Ergebnisse belegen die Effektivität unseres Ansatzes und erreichen neue SOTA-Leistungen mit signifikanten Verbesserungen.