Command Palette
Search for a command to run...
Uni-Sign: Auf dem Weg zu skaliertem, einheitlichem Gebärdensprachverstehen
Uni-Sign: Auf dem Weg zu skaliertem, einheitlichem Gebärdensprachverstehen
Zecheng Li Wengang Zhou† Weichao Zhao Kepeng Wu Hezhen Hu Houqiang Li
Zusammenfassung
Die Vorabtrainierung von Gebärdensprache hat aufgrund ihrer Fähigkeit, die Leistung bei verschiedenen Aufgaben der Gebärdensprachverarbeitung (Gebärdensprach-Verstehen, GSLV) zu verbessern, zunehmend an Bedeutung gewonnen. Bestehende Methoden leiden jedoch oft unter einem Abstand zwischen Vorabtrainierung und Feinabstimmung, was zu suboptimalen Ergebnissen führt. Um dieses Problem anzugehen, schlagen wir Uni-Sign vor, ein einheitliches Vorabtrainierungsframework, das durch eine groß angelegte generative Vorabtrainierungsstrategie und ein neues Feinabstimmungsparadigma den Abstand zwischen Vorabtrainierung und nachgeschalteten GSLV-Aufgaben beseitigt. Zunächst stellen wir CSL-News vor, einen umfangreichen Datensatz der Chinesischen Gebärdensprache (Chinesische Gebärdensprache, CSL), der 1.985 Stunden Video mit textuellen Anmerkungen enthält und effektive groß angelegte Vorabtrainierungen ermöglicht. Zweitens vereint Uni-Sign GSLV-Aufgaben dadurch, dass es nachgeschaltete Aufgaben als eine einzelne Gebärdensprachübersetzungsaufgabe (Gebärdensprach-Übersetzung, GSLT) behandelt, was eine nahtlose Wissensübertragung zwischen Vorabtrainierung und Feinabstimmung sicherstellt. Darüber hinaus integrieren wir ein prägelenktes Fusionsmodul (Prior-Guided Fusion, PGF) und eine score-basierte Stichprobenstrategie, um Pose- und RGB-Informationen effizient zu fusionieren und Schlüsselpunktabweichungen sowie die Rechenleistung zu verbessern. Ausführliche Experimente an mehreren GSLV-Benchmarks zeigen, dass Uni-Sign in mehreren nachgeschalteten GSLV-Aufgaben den aktuellen Stand der Technik erreicht. Der Datensatz und der Code sind unter github.com/ZechengLi19/Uni-Sign verfügbar.