vor 2 Monaten

Uni-Sign: Auf dem Weg zu skaliertem, einheitlichem Gebärdensprachverstehen

Zecheng Li; Wengang Zhou; Weichao Zhao; Kepeng Wu; Hezhen Hu; Houqiang Li

Abstract

Die Vorabtrainierung von Gebärdensprache hat aufgrund ihrer Fähigkeit, die Leistung bei verschiedenen Aufgaben der Gebärdensprachverarbeitung (Gebärdensprach-Verstehen, GSLV) zu verbessern, zunehmend an Bedeutung gewonnen. Bestehende Methoden leiden jedoch oft unter einem Abstand zwischen Vorabtrainierung und Feinabstimmung, was zu suboptimalen Ergebnissen führt. Um dieses Problem anzugehen, schlagen wir Uni-Sign vor, ein einheitliches Vorabtrainierungsframework, das durch eine groß angelegte generative Vorabtrainierungsstrategie und ein neues Feinabstimmungsparadigma den Abstand zwischen Vorabtrainierung und nachgeschalteten GSLV-Aufgaben beseitigt. Zunächst stellen wir CSL-News vor, einen umfangreichen Datensatz der Chinesischen Gebärdensprache (Chinesische Gebärdensprache, CSL), der 1.985 Stunden Video mit textuellen Anmerkungen enthält und effektive groß angelegte Vorabtrainierungen ermöglicht. Zweitens vereint Uni-Sign GSLV-Aufgaben dadurch, dass es nachgeschaltete Aufgaben als eine einzelne Gebärdensprachübersetzungsaufgabe (Gebärdensprach-Übersetzung, GSLT) behandelt, was eine nahtlose Wissensübertragung zwischen Vorabtrainierung und Feinabstimmung sicherstellt. Darüber hinaus integrieren wir ein prägelenktes Fusionsmodul (Prior-Guided Fusion, PGF) und eine score-basierte Stichprobenstrategie, um Pose- und RGB-Informationen effizient zu fusionieren und Schlüsselpunktabweichungen sowie die Rechenleistung zu verbessern. Ausführliche Experimente an mehreren GSLV-Benchmarks zeigen, dass Uni-Sign in mehreren nachgeschalteten GSLV-Aufgaben den aktuellen Stand der Technik erreicht. Der Datensatz und der Code sind unter github.com/ZechengLi19/Uni-Sign verfügbar.