Réseau SlowFast pour la reconnaissance continue de la langue des signes

L'objectif de ce travail est l'extraction efficace des caractéristiques spatiales et dynamiques pour la reconnaissance continue des langues des signes (CSLR). Pour y parvenir, nous utilisons un réseau SlowFast à deux voies, où chaque voie opère à une résolution temporelle distincte afin de capturer séparément les informations spatiales (formes des mains, expressions faciales) et dynamiques (mouvements). En outre, nous introduisons deux méthodes de fusion de caractéristiques distinctes, soigneusement conçues pour les spécificités de la CSLR : (1) la fusion bidirectionnelle des caractéristiques (BFF), qui permet le transfert des sémantiques dynamiques vers les sémantiques spatiales et réciproquement ; et (2) l'amélioration des caractéristiques par voie (PFE), qui enrichit les représentations dynamiques et spatiales grâce à des sous-réseaux auxiliaires, sans toutefois nécessiter de temps d'inférence supplémentaire. En conséquence, notre modèle renforce parallèlement les représentations spatiales et dynamiques. Nous démontrons que le cadre proposé surpasser les performances actuelles de l'état de l'art sur des jeux de données populaires pour la CSLR, notamment PHOENIX14, PHOENIX14-T et CSL-Daily.