HyperAIHyperAI
il y a 18 jours

Traduction de la langue des signes par réseau neuronal

{Richard Bowden, Oscar Koller, Hermann Ney, Simon Hadfield, Necati Cihan Camgoz}
Traduction de la langue des signes par réseau neuronal
Résumé

La reconnaissance des langues des signes (SLR) constitue un domaine de recherche actif depuis deux décennies. Toutefois, la plupart des travaux menés à ce jour ont traité la SLR comme un problème de reconnaissance de gestes naïf. En réalité, la SLR vise à reconnaître une séquence de signes continus, tout en négligeant les structures grammaticales et linguistiques riches sous-jacentes aux langues des signes, qui diffèrent considérablement des langues parlées. À l’inverse, nous introduisons ici le problème de traduction des langues des signes (SLT). L’objectif est de générer des traductions en langues parlées à partir de vidéos de langues des signes, en tenant compte des ordres différents des mots et des structures grammaticales spécifiques. Nous formalisons le SLT dans le cadre de la traduction machine neuronale (NMT), tant pour des approches end-to-end que pour des configurations utilisant des modèles pré-entraînés (intégrant des connaissances expertes). Cette formulation permet d’apprendre conjointement les représentations spatiales, le modèle linguistique sous-jacent, ainsi que l’application de correspondance entre les signes et les langues parlées. Pour évaluer les performances du SLT neuronal, nous avons recueilli le premier jeu de données publiquement disponible pour la traduction continue des langues des signes : le RWTH-PHOENIX-Weather 2014T. Ce jeu de données fournit des traductions en langue parlée et des annotations au niveau des glosses pour des vidéos de langue des signes allemande issues de bulletins météorologiques. Il contient plus de 950 000 images, plus de 67 000 signes issus d’un vocabulaire de signes supérieur à 1 000 termes, et plus de 99 000 mots provenant d’un vocabulaire allemand de plus de 2 800 mots. Nous présentons des résultats quantitatifs et qualitatifs pour diverses configurations de SLT, afin de soutenir les recherches futures dans ce domaine émergent. La borne supérieure de performance en traduction est établie à 19,26 BLEU-4, tandis que nos réseaux end-to-end basés sur des découpages au niveau des images et au niveau des glosses ont atteint respectivement 9,58 et 18,13.

Traduction de la langue des signes par réseau neuronal | Articles de recherche récents | HyperAI