HyperAIHyperAI
il y a 9 jours

Une base simple d'apprentissage par transfert multi-modale pour la traduction de la langue des signes

Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin
Une base simple d'apprentissage par transfert multi-modale pour la traduction de la langue des signes
Résumé

Ce papier propose une base simple d'apprentissage par transfert pour la traduction de la langue des signes. Les jeux de données existants en langue des signes (par exemple PHOENIX-2014T, CSL-Daily) ne contiennent que quelques dizaines de milliers de paires de vidéos de signes, d'annotations de glosses et de textes — soit un ordre de grandeur inférieur aux données parallèles habituellement utilisées pour entraîner des modèles de traduction de langage parlé. Le manque de données constitue donc un goulot d'étranglement majeur pour l'entraînement de modèles efficaces de traduction de la langue des signes. Pour atténuer ce problème, nous proposons de pré-entraîner progressivement le modèle à partir de jeux de données de domaine général, riches en supervision externe, vers des jeux de données de domaine spécifique. Plus précisément, nous pré-entraînons le réseau visuel signe → gloss sur un domaine général d'actions humaines, puis sur un domaine spécifique constitué d'un jeu de données signe → gloss ; parallèlement, nous pré-entraînons le réseau de traduction gloss → texte sur un domaine général constitué d'un corpus multilingue, puis sur un domaine spécifique constitué d'un corpus gloss → texte. Le modèle combiné est ensuite affiné avec un module supplémentaire appelé « mapper visuel-langage », qui relie les deux réseaux. Cette base simple dépasse les résultats précédents de l'état de l'art sur deux benchmarks de traduction de la langue des signes, démontrant ainsi l'efficacité de l'apprentissage par transfert. Grâce à sa simplicité et à ses performances remarquables, cette approche peut servir de base solide pour les recherches futures. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/FangyunWei/SLRT.