HyperAIHyperAI

Command Palette

Search for a command to run...

SignBERT+: Hand-Modell-berücksichtigendes selbstüberwachtes Vortrainieren für das Verständnis von Gebärdensprache

Hezhen Hu Weichao Zhao Wengang Zhou Houqiang Li

Zusammenfassung

Die Gestenbildung spielt eine entscheidende Rolle bei der Ausdrucksweise der Gebärdensprache. Aktuelle auf Deep Learning basierende Ansätze zur Gebärdensprachverstehens (SLU) neigen aufgrund unzureichender Datensätze für Gebärdensprachen stark überfitting und leiden unter begrenzbarer Interpretierbarkeit. In diesem Paper stellen wir den ersten selbstüberwachten, vortrainierbaren SignBERT+-Framework vor, der ein modellbasiertes Handprior-Wissen integriert. In unserem Ansatz wird die Handpose als visueller Token betrachtet, der mittels eines kommerziell erhältlichen Detektors abgeleitet wird. Jeder visuelle Token wird mit einer Gestenstatus- und räumlich-zeitlichen Positions-Embedding versehen. Um die verfügbaren Gebärdendaten optimal auszunutzen, führen wir zunächst selbstüberwachtes Lernen durch, um deren statistische Eigenschaften zu modellieren. Dazu entwerfen wir mehrstufige Maskierungsmodellierungsstrategien (Gelenk-, Frame- und Clip-Ebene), um typische Fehlfunktionen bei der Erkennung nachzuahmen. In Kombination mit diesen Maskierungsstrategien integrieren wir ein modellbasiertes Handprior-Wissen, um hierarchische Kontextinformationen entlang der Sequenz besser zu erfassen. Nach dem Vortraining entwerfen wir gezielt einfache, aber effektive Vorhersageköpfe für nachgeschaltete Aufgaben. Um die Wirksamkeit unseres Frameworks zu validieren, führen wir umfangreiche Experimente auf drei zentralen SLU-Aufgaben durch, darunter die Erkennung isolierter und kontinuierlicher Gebärdensprache (SLR) sowie die Gebärdensprachübersetzung (SLT). Die experimentellen Ergebnisse belegen die Effektivität unseres Ansatzes und erreichen neue SOTA-Leistungen mit signifikanten Verbesserungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp