Siformer : Transformer à isolation de caractéristiques pour une reconnaissance efficace des langues des signes basée sur les squelettes
La reconnaissance de la langue des signes (SLR) consiste à interpréter automatiquement les glosses de la langue des signes à partir de vidéos données. Ce domaine de recherche pose un défi complexe en vision par ordinateur en raison des mouvements rapides et complexes inhérents aux langues des signes, qui englobent des gestes manuels, des postures corporelles et même des expressions faciales. Récemment, la reconnaissance d’actions basée sur les squelettes a suscité un intérêt croissant grâce à sa capacité à gérer les variations entre sujets et arrière-plans de manière indépendante. Toutefois, les méthodes actuelles de SLR basées sur les squelettes présentent trois limitations majeures : 1) elles négligent fréquemment l’importance des poses réalistes des mains, la plupart des études formant les modèles de SLR sur des représentations squelettiques non réalistes ; 2) elles supposent généralement une disponibilité complète des données tant en phase d’entraînement qu’en phase d’inférence, tout en capturant collectivement les relations complexes entre différentes parties du corps ; 3) ces méthodes traitent toutes les glosses de signes de manière uniforme, sans tenir compte des différences de niveaux de complexité dans les représentations squelettiques. Pour améliorer la réalisme des représentations squelettiques des mains, nous proposons une méthode de rectification cinématique des poses manuelles afin d’imposer des contraintes. Afin de réduire l’impact des données manquantes, nous introduisons un mécanisme d’isolation des caractéristiques, conçu pour se concentrer sur la capture du contexte spatio-temporel local. Cette approche permet de capturer le contexte simultanément et indépendamment des caractéristiques individuelles, renforçant ainsi la robustesse du modèle de SLR. En outre, pour s’adapter aux niveaux variables de complexité des glosses de signes, nous développons une approche d’inférence adaptative aux entrées, permettant d’optimiser à la fois l’efficacité computationnelle et la précision. Les résultats expérimentaux démontrent l’efficacité de notre méthode, qui atteint une nouvelle performance de l’état de l’art (SOTA) sur les jeux de données WLASL100 et LSA64. Sur WLASL100, nous obtenons une précision top-1 de 86,50 %, soit une amélioration relative de 2,39 % par rapport à la précédente SOTA. Sur LSA64, nous atteignons une précision top-1 de 99,84 %. Les artefacts et le code liés à cette étude sont rendus accessibles publiquement en ligne (https://github.com/mpuu00001/Siformer.git).