HyperAIHyperAI
il y a 2 mois

Uni-Sign : Vers une compréhension unifiée des langues des signes à grande échelle

Zecheng Li; Wengang Zhou; Weichao Zhao; Kepeng Wu; Hezhen Hu; Houqiang Li
Uni-Sign : Vers une compréhension unifiée des langues des signes à grande échelle
Résumé

La préformation en langage des signes a suscité de plus en plus d'attention pour sa capacité à améliorer les performances dans diverses tâches de compréhension du langage des signes (CLS). Cependant, les méthodes existantes souffrent souvent d'un écart entre la préformation et l'ajustement fin, conduisant à des résultats sous-optimaux. Pour remédier à cela, nous proposons Uni-Sign, un cadre de préformation unifié qui élimine cet écart grâce à une stratégie de préformation générative à grande échelle et à un nouveau paradigme d'ajustement fin. Premièrement, nous présentons CSL-News, un ensemble de données à grande échelle en langage des signes chinois (CSL) contenant 1 985 heures de vidéo accompagnées d'annotations textuelles, ce qui permet une préformation efficace à grande échelle. Deuxièmement, Uni-Sign unifie les tâches de CLS en traitant les tâches downstream comme une seule tâche de traduction du langage des signes (TLS) lors de l'ajustement fin, garantissant ainsi un transfert fluide des connaissances entre la préformation et l'ajustement fin. En outre, nous intégrons un module de fusion guidée par le contexte antérieur (PGF) et une stratégie d'échantillonnage basée sur le score pour fusionner efficacement les informations de pose et RGB, corrigeant les inexactitudes des points clés et améliorant l'efficacité computationnelle. Des expériences approfondies sur plusieurs benchmarks de CLS montrent que Uni-Sign atteint des performances de pointe dans plusieurs tâches downstream de CLS. Le jeu de données et le code sont disponibles sur github.com/ZechengLi19/Uni-Sign.