HyperAIHyperAI
il y a 9 jours

AUTSL : Un jeu de données turc à grande échelle multimodal pour la langue des signes et des méthodes de référence

Ozge Mercanoglu Sincan, Hacer Yalim Keles
AUTSL : Un jeu de données turc à grande échelle multimodal pour la langue des signes et des méthodes de référence
Résumé

La reconnaissance des langues des signes constitue un problème complexe, dans lequel les signes sont identifiés grâce à des articulations locales et globales simultanées provenant de plusieurs sources : forme et orientation de la main, mouvements de la main, posture du corps et expressions faciales. La résolution de ce problème de manière computationnelle pour un vocabulaire important de signes dans des contextes réels reste un défi, même avec les modèles les plus avancés. Dans cette étude, nous présentons un nouveau jeu de données à grande échelle multimodal pour la langue des signes turque (AUTSL), accompagné d’un benchmark, ainsi que des modèles de base pour l’évaluation des performances. Notre jeu de données comprend 226 signes réalisés par 43 signants différents, réunissant au total 38 336 échantillons vidéo isolés de signes. Ces échantillons présentent une grande variété d’arrière-plans, enregistrés dans des environnements intérieurs et extérieurs. En outre, les positions spatiales et les postures des signants varient également dans les enregistrements. Chaque échantillon est capté à l’aide de Microsoft Kinect v2 et inclut des modalités RGB, profondeur et squelette. Nous avons préparé des ensembles d’entraînement et de test pour permettre des évaluations indépendantes des utilisateurs. Nous avons entraîné plusieurs modèles basés sur l’apprentissage profond et fourni des évaluations empiriques à l’aide du benchmark : nous avons utilisé des réseaux de neurones convolutifs (CNN) pour extraire les caractéristiques, ainsi que des modèles LSTM unidirectionnels et bidirectionnels pour modéliser l’information temporelle. Nous avons également intégré des modules de pooling de caractéristiques et une attention temporelle dans nos modèles afin d’améliorer leurs performances. Nous avons évalué nos modèles de base sur les jeux de données AUTSL et Montalbano. Sur le jeu de données Montalbano, nos modèles atteignent des résultats compétitifs par rapport aux méthodes de pointe, avec une précision de 96,11 %. Sur AUTSL, avec des divisions aléatoires d’entraînement et de test, nos modèles atteignent une précision maximale de 95,95 %. Dans le benchmark proposé, indépendant des utilisateurs, notre meilleur modèle de base atteint 62,02 % de précision. Les écarts de performance observés entre les mêmes modèles de base mettent en évidence les défis inhérents à notre jeu de données benchmark. Le jeu de données benchmark AUTSL est disponible publiquement à l’adresse suivante : https://cvml.ankara.edu.tr.

AUTSL : Un jeu de données turc à grande échelle multimodal pour la langue des signes et des méthodes de référence | Articles de recherche récents | HyperAI