HyperAIHyperAI
il y a 9 jours

Réseau à deux flux pour la reconnaissance et la traduction des langues des signes

Yutong Chen, Ronglai Zuo, Fangyun Wei, Yu Wu, Shujie Liu, Brian Mak
Réseau à deux flux pour la reconnaissance et la traduction des langues des signes
Résumé

Les langues des signes sont des langues visuelles qui utilisent des articulations manuelles ainsi que des éléments non manuels pour transmettre l'information. Dans le cadre de la reconnaissance et de la traduction des langues des signes, la plupart des approches existantes encodent directement des vidéos RGB en représentations cachées. Or, les vidéos RGB constituent des signaux bruts présentant une redondance visuelle importante, ce qui pousse l’encodeur à ignorer les informations clés nécessaires à la compréhension des langues des signes. Pour atténuer ce problème et mieux intégrer des connaissances spécifiques au domaine, telles que la forme de la main ou les mouvements du corps, nous proposons un encodeur visuel dual composé de deux flux distincts, modélisant à la fois les vidéos brutes et les séquences de points clés générées par un estimateur de points clés disponible commercialement. Pour permettre une interaction efficace entre ces deux flux, nous explorons diverses techniques, notamment des connexions latérales bidirectionnelles, un réseau pyramidale des signes avec supervision auxiliaire, ainsi que la distillation auto-supervisée au niveau des trames. Le modèle résultant, appelé TwoStream-SLR, se révèle performant pour la reconnaissance des langues des signes (SLR). En ajoutant simplement un réseau de traduction supplémentaire, TwoStream-SLR est étendu à un modèle de traduction des langues des signes (SLT), appelé TwoStream-SLT. Expérimentalement, nos modèles TwoStream-SLR et TwoStream-SLT atteignent des performances de pointe sur les tâches de SLR et SLT sur plusieurs jeux de données, notamment Phoenix-2014, Phoenix-2014T et CSL-Daily. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/FangyunWei/SLRT.