Fusion temporelle connexionniste pour la traduction de la langue des signes

La traduction continue de la langue des signes (CSLT) est un problème faiblement supervisé visant à traduire des vidéos basées sur la vision en langage naturel dans un contexte linguistique des signes complexe, où les mots ordonnés dans une étiquette de phrase ne correspondent pas à des bornes exactes pour chaque action signée dans la vidéo. Ce papier propose une architecture profonde hybride composée d’un module de convolution temporelle (TCOV), d’un module de unité récurrente à portes bidirectionnel (BGRU) et d’un module de fusion (FL) afin de résoudre le problème de CSLT. Le TCOV capte les transitions temporelles à court terme sur les caractéristiques des clips adjacents (modèle local), tandis que le BGRU maintient les transitions contextuelles à long terme le long de la dimension temporelle (modèle global). Le module FL concatène les représentations d’embedding des sorties du TCOV et du BGRU afin d’apprendre leur relation complémentaire (modèle mutuel). Ainsi, nous proposons un mécanisme de fusion temporelle connexionniste conjointe (CTF) afin d’exploiter les avantages de chaque module. Une stratégie d’optimisation conjointe de la perte CTC et une méthode de fusion de décodage basée sur les scores de classification profonde sont conçues pour améliorer les performances. Grâce à une seule phase d’entraînement, notre modèle, sous contraintes CTC, atteint des performances comparables à celles des méthodes existantes nécessitant plusieurs itérations d’optimisation EM. Des expériences ont été menées et validées sur un jeu de données de référence, à savoir le jeu de données RWTH-PHOENIX-Weather, démontrant ainsi l’efficacité de la méthode proposée.