Réseau de convolution temporelle dense pour la traduction de la langue des signes

La traduction de la langue des signes (SLT), dont l’objectif est de convertir une vidéo en langue des signes en une langue naturelle, est faiblement supervisée, car aucune correspondance exacte n’existe entre les actions visuelles et les mots textuels dans une étiquette de phrase. Afin d’aligner les actions de la langue des signes et de les traduire automatiquement en mots respectifs, cette étude propose un réseau de convolution temporelle dense, nommé DenseTCN, qui permet de capturer les actions à plusieurs niveaux hiérarchiques. Dans ce réseau, une convolution temporelle (TC) est conçue pour apprendre les corrélations à court terme entre caractéristiques adjacentes, puis étendue à une structure hiérarchique dense. À la $k^{\text{e}}$ couche TC, nous intégrons les sorties de toutes les couches précédentes : (1) la convolution à une couche plus profonde possède en effet un champ réceptif plus large, ce qui permet de capturer le contexte temporel à long terme grâce à une transition hiérarchique des contenus ; (2) cette intégration aborde le problème de la SLT à travers différentes perspectives, incluant une apprentissage séquentiel à court terme intégré et un apprentissage à long terme étendu. Enfin, nous utilisons une perte CTC ainsi qu’une stratégie de fusion pour apprendre la classification au niveau des caractéristiques et générer la phrase traduite. Les résultats expérimentaux obtenus sur deux benchmarks populaires de langues des signes, à savoir PHOENIX et USTC-ConSents, démontrent l’efficacité de la méthode proposée selon diverses métriques.