Rapport technique sur le fine-tuning des modèles de reconnaissance de la langue des signes

La reconnaissance des langues des signes (SLR) constitue une tâche essentielle mais complexe, en raison de la rapidité et de la complexité des mouvements des gestes manuels, de la posture du corps, voire des expressions faciales associées. Dans ce travail, nous nous sommes concentrés sur deux questions : en quoi le fine-tuning sur des jeux de données provenant d'autres langues des signes améliore-t-il la qualité de la reconnaissance, et est-il possible de réaliser cette reconnaissance en temps réel sans recourir à une GPU ? Trois jeux de données linguistiques différents ont été utilisés pour valider les modèles : l’American Sign Language (WLASL), le turc (AUTSL) et le russe (RSL). La vitesse moyenne de ce système atteint 3 prédictions par seconde, ce qui répond aux exigences d’une application en temps réel. Ce modèle (prototype) pourra bénéficier aux personnes malentendantes ou muettes en leur permettant de communiquer avec autrui via Internet. Nous avons également étudié l’impact de l’entraînement supplémentaire du modèle sur une autre langue des signes sur la qualité de reconnaissance. Les résultats montrent que l’entraînement additionnel du modèle sur des données d’une autre langue des signes conduit presque toujours à une amélioration de la qualité de reconnaissance des gestes. En outre, nous mettons à disposition le code permettant de reproduire les expériences d’entraînement du modèle, de convertir les modèles au format ONNX, ainsi que d’effectuer des inférences pour une reconnaissance en temps réel des gestes.