HyperAIHyperAI

Command Palette

Search for a command to run...

Traduction de la langue des signes par réseau neuronal

Richard Bowden Oscar Koller Hermann Ney Simon Hadfield Necati Cihan Camgoz

Résumé

La reconnaissance des langues des signes (SLR) constitue un domaine de recherche actif depuis deux décennies. Toutefois, la plupart des travaux menés à ce jour ont traité la SLR comme un problème de reconnaissance de gestes naïf. En réalité, la SLR vise à reconnaître une séquence de signes continus, tout en négligeant les structures grammaticales et linguistiques riches sous-jacentes aux langues des signes, qui diffèrent considérablement des langues parlées. À l’inverse, nous introduisons ici le problème de traduction des langues des signes (SLT). L’objectif est de générer des traductions en langues parlées à partir de vidéos de langues des signes, en tenant compte des ordres différents des mots et des structures grammaticales spécifiques. Nous formalisons le SLT dans le cadre de la traduction machine neuronale (NMT), tant pour des approches end-to-end que pour des configurations utilisant des modèles pré-entraînés (intégrant des connaissances expertes). Cette formulation permet d’apprendre conjointement les représentations spatiales, le modèle linguistique sous-jacent, ainsi que l’application de correspondance entre les signes et les langues parlées. Pour évaluer les performances du SLT neuronal, nous avons recueilli le premier jeu de données publiquement disponible pour la traduction continue des langues des signes : le RWTH-PHOENIX-Weather 2014T. Ce jeu de données fournit des traductions en langue parlée et des annotations au niveau des glosses pour des vidéos de langue des signes allemande issues de bulletins météorologiques. Il contient plus de 950 000 images, plus de 67 000 signes issus d’un vocabulaire de signes supérieur à 1 000 termes, et plus de 99 000 mots provenant d’un vocabulaire allemand de plus de 2 800 mots. Nous présentons des résultats quantitatifs et qualitatifs pour diverses configurations de SLT, afin de soutenir les recherches futures dans ce domaine émergent. La borne supérieure de performance en traduction est établie à 19,26 BLEU-4, tandis que nos réseaux end-to-end basés sur des découpages au niveau des images et au niveau des glosses ont atteint respectivement 9,58 et 18,13.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Traduction de la langue des signes par réseau neuronal | Articles | HyperAI