HyperAIHyperAI
il y a 9 jours

Alignement contrastif débruitant pour la reconnaissance de la langue des signes continue

Leming Guo, Wanli Xue, Shengyong Chen
Alignement contrastif débruitant pour la reconnaissance de la langue des signes continue
Résumé

La reconnaissance continue de la langue des signes (CSLR) vise à reconnaître les signes dans des vidéos non-tronquées de langue des signes et à les convertir en glosses textuelles. Un défi majeur de la CSLR réside dans l’obtention d’un alignement efficace entre les modalités vidéo et glosses afin d’améliorer la représentation vidéo. Toutefois, les paradigmes actuels d’alignement intermodaux négligent fréquemment le rôle de la grammaire textuelle dans la guidage de la représentation vidéo lors de l’apprentissage du contexte temporel global, ce qui nuit négativement aux performances de reconnaissance. Pour surmonter cette limitation, nous proposons un paradigme d’alignement débruité-contrastif (DCA). Le DCA exploite de manière originale la grammaire textuelle pour enrichir les représentations vidéo à travers deux approches complémentaires : modélisation de la correspondance instance à instance entre signes et glosses du point de vue discriminatif, et alignement de leur contexte global du point de vue génératif. Plus précisément, le DCA réalise une correspondance flexible au niveau des instances entre signes et glosses grâce à une perte contrastive. En s’appuyant sur cette correspondance, le DCA modélise l’alignement du contexte global entre les séquences vidéo et glosses en débruitant la représentation des glosses à partir du bruit, guidée par la représentation vidéo. En outre, le DCA introduit une modulation des gradients afin d’optimiser à la fois les gradients d’alignement et ceux de reconnaissance, garantissant un processus d’apprentissage plus efficace. En intégrant à la fois les connaissances locales par glosses et le contexte global, le DCA améliore significativement les représentations vidéo pour les tâches de CSLR. Les résultats expérimentaux sur plusieurs benchmarks publics valident l’efficacité du DCA et confirment sa faisabilité en matière d’amélioration des représentations vidéo.

Alignement contrastif débruitant pour la reconnaissance de la langue des signes continue | Articles de recherche récents | HyperAI