Un modèle ne suffit pas : les ensembles pour la reconnaissance des langues des signes isolées
Dans cet article, nous nous penchons sur la reconnaissance des langues des signes, en nous concentrant sur la reconnaissance des signes isolés. Cette tâche est formulée comme un problème de classification, dans lequel une séquence d'images (c’est-à-dire des trames) est identifiée comme l’un des glossaires de langue des signes prédéfinis. Nous analysons deux approches basées sur l’apparence : I3D et TimeSformer, ainsi qu’une approche basée sur la posture : SPOTER. Les approches basées sur l’apparence sont entraînées sur différentes modalités de données, tandis que les performances de SPOTER sont évaluées sur divers types de prétraitement. Toutes ces méthodes sont testées sur deux jeux de données publiques : AUTSL et WLASL300. Nous expérimentons des techniques d’ensembles afin d’obtenir de nouveaux résultats état-de-l’art atteignant 73,84 % de précision sur le jeu de données WLASL300, en utilisant la méthode d’optimisation CMA-ES pour déterminer les meilleurs paramètres de poids dans l’ensemble. En outre, nous proposons une technique d’ensemblage fondée sur le modèle Transformer, que nous appelons Neural Ensembler.