il y a 9 jours

Contrainte d'alignement visuel pour la reconnaissance continue de la langue des signes

Yuecong Min, Aiming Hao, Xiujuan Chai, Xilin Chen

Résumé

La reconnaissance continue de la langue des signes basée sur la vision (CSLR) vise à identifier des signes non segmentés à partir de flux d’images. Le surajustement (overfitting) constitue l’un des problèmes les plus critiques lors de l’entraînement en CSLR, et les travaux antérieurs montrent que le schéma d’entraînement itératif peut résoudre partiellement ce problème, au prix d’un temps d’entraînement accru. Dans cette étude, nous réexaminons le schéma d’entraînement itératif adopté dans les travaux récents en CSLR, et constatons que la formation suffisante du extracteur de caractéristiques est cruciale pour atténuer le surajustement. Par conséquent, nous proposons une contrainte d’alignement visuel (Visual Alignment Constraint, VAC) afin d’améliorer l’extracteur de caractéristiques grâce à une supervision d’alignement. Plus précisément, la VAC proposée comporte deux pertes auxiliaires : l’une se concentre uniquement sur les caractéristiques visuelles, tandis que l’autre impose un alignement des prédictions entre l’extracteur de caractéristiques et le module d’alignement. En outre, nous introduisons deux métriques pour évaluer le surajustement en mesurant l’incohérence des prédictions entre l’extracteur de caractéristiques et le module d’alignement. Les résultats expérimentaux sur deux jeux de données exigeants en CSLR montrent que la VAC proposée permet une entraînement end-to-end des réseaux CSLR et atteint des performances compétitives.