HyperAIHyperAI
il y a 9 jours

Réseau auto-émphasé pour la reconnaissance continue des langues des signes

Lianyu Hu, Liqing Gao, Zekang liu, Wei Feng
Réseau auto-émphasé pour la reconnaissance continue des langues des signes
Résumé

La main et le visage jouent un rôle crucial dans l’expression de la langue des signes. Leurs caractéristiques sont généralement particulièrement exploitées pour améliorer les performances des systèmes. Toutefois, pour extraire efficacement les représentations visuelles et capturer les trajectoires des mains et du visage, les méthodes précédentes nécessitent souvent des calculs intensifs et une complexité d’entraînement accrue. Elles s’appuient souvent sur des réseaux supplémentaires lourds de estimation de posture afin de localiser les points clés du corps humain, ou dépendent de cartes de chaleur pré-extraites supplémentaires pour la supervision. Pour atténuer ce problème, nous proposons un réseau d’auto-émphasis (SEN), qui met en évidence de manière autonome les régions spatiales informatives, avec un coût computationnel minimal et sans supervision supplémentaire coûteuse. Plus précisément, SEN utilise d’abord un sous-réseau léger pour intégrer des caractéristiques spatiales-temporelles locales afin d’identifier les régions pertinentes, puis améliore dynamiquement les caractéristiques initiales via des cartes d’attention. Il a également été observé que toutes les trames ne contribuent pas également à la reconnaissance. Nous introduisons donc un module d’auto-émphasis temporel, qui met de manière adaptative l’accent sur les trames discriminantes tout en supprimant les trames redondantes. Une comparaison exhaustive avec les méthodes antérieures utilisant des caractéristiques de main et de visage démontre l’efficacité supérieure de notre approche, même si celles-ci exigent généralement des calculs importants et reposent sur une supervision coûteuse. Notamment, avec un coût computationnel négligeable, SEN atteint de nouvelles performances de pointe sur quatre grands jeux de données : PHOENIX14, PHOENIX14-T, CSL-Daily et CSL. Des visualisations confirment l’effet du SEN dans la mise en évidence des caractéristiques spatiales et temporelles informatives. Le code est disponible à l’adresse suivante : https://github.com/hulianyuyy/SEN_CSLR

Réseau auto-émphasé pour la reconnaissance continue des langues des signes | Articles de recherche récents | HyperAI