HyperAIHyperAI
il y a 9 jours

Reconnaissance profonde des signes au niveau des mots à partir de vidéos : un nouveau jeu de données à grande échelle et une comparaison de méthodes

Dongxu Li, Cristian Rodriguez Opazo, Xin Yu, Hongdong Li
Reconnaissance profonde des signes au niveau des mots à partir de vidéos : un nouveau jeu de données à grande échelle et une comparaison de méthodes
Résumé

La reconnaissance basée sur la vision de la langue des signes vise à aider les personnes sourdes à communiquer avec autrui. Toutefois, la plupart des bases de données existantes de langues des signes sont limitées à un petit nombre de mots. En raison de la taille restreinte du vocabulaire, les modèles appris à partir de ces bases de données ne peuvent pas être appliqués en pratique. Dans cet article, nous introduisons une nouvelle base de données vidéo à grande échelle, au niveau du mot, de la langue des signes américaine (WLASL), comprenant plus de 2 000 mots réalisés par plus de 100 signataires. Cette base de données sera mise à disposition publiquement pour la communauté scientifique. À notre connaissance, il s’agit jusqu’à présent de la plus grande base de données publique de langue des signes américaine destinée à faciliter la recherche sur la reconnaissance au niveau du mot.Sur la base de cette nouvelle base de données à grande échelle, nous pouvons expérimenter plusieurs méthodes d’apprentissage profond pour la reconnaissance des mots en langue des signes et évaluer leurs performances dans des scénarios à grande échelle. Plus précisément, nous implémentons et comparons deux modèles distincts : (i) une approche fondée sur l’apparence visuelle globale, et (ii) une approche basée sur la posture humaine en 2D. Ces deux modèles constituent des références valables qui bénéficieront à la communauté pour la comparaison des méthodes. En outre, nous proposons également un nouveau modèle basé sur les poses, appelé réseaux de convolution graphique temporels à partir des poses (Pose-TGCN), qui modélise simultanément les dépendances spatiales et temporelles dans les trajectoires des postures humaines, permettant ainsi d’améliorer davantage les performances de l’approche basée sur les poses. Nos résultats montrent que les modèles basés sur les poses et ceux basés sur l’apparence atteignent des performances comparables, avec une précision au top-10 atteignant jusqu’à 66 % sur 2 000 mots/glosses, démontrant ainsi la validité ainsi que les défis posés par notre base de données. Notre base de données et les modèles de base basés sur l’apprentissage profond sont disponibles à l’adresse suivante : \url{https://dxli94.github.io/WLASL/}.

Reconnaissance profonde des signes au niveau des mots à partir de vidéos : un nouveau jeu de données à grande échelle et une comparaison de méthodes | Articles de recherche récents | HyperAI