vor 9 Tagen

SignBERT: Vortrainierung von handmodellbewussten Darstellungen für die Gebärdenspracherkennung

Hezhen Hu, Weichao Zhao, Wengang Zhou, Yuechen Wang, Houqiang Li

Abstract

Gesten spielen eine entscheidende Rolle in der Gebärden-Sprache. Derzeitige auf Deep Learning basierende Methoden zur Gebärden-Sprach-Erkennung (SLR) leiden möglicherweise unter geringer Interpretierbarkeit und Überanpassung aufgrund begrenzter Datensätze an Gebärden. In diesem Artikel stellen wir erstmals SignBERT vor – ein selbstüberwachtes, vortrainierbares Modell für die SLR, das eine Handprior-Information integriert. SignBERT betrachtet die Handpose als visuellen Token, der mittels eines standardmäßigen Pose-Extraktors gewonnen wird. Diese visuellen Tokens werden anschließend mit Informationen zu Gestenstatus, Zeitverlauf und Handchiralität eingebettet. Um die verfügbaren Gebärden-Datensätze optimal auszunutzen, führt SignBERT zunächst eine selbstüberwachte Vortrainingsphase durch, bei der visuelle Tokens maskiert und rekonstruiert werden. In Kombination mit mehreren Maskierungsstrategien versuchen wir, die Handprior auf eine modellbewusste Weise einzubinden, um den hierarchischen Kontext der Handsequenz besser zu erfassen. Anschließend wird ein Vorhersagekopf hinzugefügt, um SignBERT für die abgeleitete SLR-Aufgabe zu feinabstimmen. Zur Validierung der Wirksamkeit unseres Ansatzes in der SLR führen wir umfangreiche Experimente auf vier öffentlichen Benchmark-Datensätzen durch: NMFs-CSL, SLR500, MSASL und WLASL. Die Experimente belegen die Effektivität sowohl des selbstüberwachten Lernens als auch der eingeführten Handprior. Zudem erreichen wir auf allen Benchmarks den Stand der Technik mit einer bemerkenswerten Verbesserung.