Reconnaissance continue de la langue des signes avec un réseau de corrélation

Les trajectoires du corps humain constituent un indice significatif pour identifier les actions dans une vidéo. Ces trajectoires corporelles sont principalement transmises par les mains et le visage entre des cadres consécutifs dans la langue des signes. Toutefois, les méthodes actuelles de reconnaissance continue de la langue des signes (CSLR) traitent généralement les cadres de manière indépendante, ce qui les empêche de capturer efficacement les trajectoires entre cadres pour identifier correctement un signe. Pour surmonter cette limitation, nous proposons un réseau de corrélation (CorrNet), conçu pour capturer explicitement et exploiter les trajectoires corporelles à travers les cadres afin d’identifier les signes. Plus précisément, un module de corrélation est d’abord introduit pour calculer dynamiquement des cartes de corrélation entre le cadre courant et les cadres adjacents, permettant ainsi d’identifier les trajectoires de toutes les zones spatiales. Un module d’identification est ensuite proposé pour mettre dynamiquement en évidence les trajectoires corporelles présentes dans ces cartes de corrélation. En conséquence, les caractéristiques générées sont capables de capturer une vue d’ensemble des mouvements temporels locaux, facilitant ainsi l’identification d’un signe. Grâce à son attention particulière aux trajectoires corporelles, CorrNet atteint de nouvelles performances de pointe sur quatre grands jeux de données, à savoir PHOENIX14, PHOENIX14-T, CSL-Daily et CSL. Une comparaison exhaustive avec les méthodes précédentes de raisonnement spatio-temporel confirme l’efficacité de CorrNet. Des visualisations montrent clairement l’effet de CorrNet dans la mise en évidence des trajectoires du corps humain entre cadres adjacents.