HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau à deux flux pour la reconnaissance et la traduction des langues des signes

Yutong Chen Ronglai Zuo Fangyun Wei Yu Wu Shujie Liu Brian Mak

Résumé

Les langues des signes sont des langues visuelles qui utilisent des articulations manuelles ainsi que des éléments non manuels pour transmettre l'information. Dans le cadre de la reconnaissance et de la traduction des langues des signes, la plupart des approches existantes encodent directement des vidéos RGB en représentations cachées. Or, les vidéos RGB constituent des signaux bruts présentant une redondance visuelle importante, ce qui pousse l’encodeur à ignorer les informations clés nécessaires à la compréhension des langues des signes. Pour atténuer ce problème et mieux intégrer des connaissances spécifiques au domaine, telles que la forme de la main ou les mouvements du corps, nous proposons un encodeur visuel dual composé de deux flux distincts, modélisant à la fois les vidéos brutes et les séquences de points clés générées par un estimateur de points clés disponible commercialement. Pour permettre une interaction efficace entre ces deux flux, nous explorons diverses techniques, notamment des connexions latérales bidirectionnelles, un réseau pyramidale des signes avec supervision auxiliaire, ainsi que la distillation auto-supervisée au niveau des trames. Le modèle résultant, appelé TwoStream-SLR, se révèle performant pour la reconnaissance des langues des signes (SLR). En ajoutant simplement un réseau de traduction supplémentaire, TwoStream-SLR est étendu à un modèle de traduction des langues des signes (SLT), appelé TwoStream-SLT. Expérimentalement, nos modèles TwoStream-SLR et TwoStream-SLT atteignent des performances de pointe sur les tâches de SLR et SLT sur plusieurs jeux de données, notamment Phoenix-2014, Phoenix-2014T et CSL-Daily. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/FangyunWei/SLRT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp