HyperAIHyperAI

Command Palette

Search for a command to run...

C2SLR : Reconnaissance continue des langues des signes renforcée par la cohérence

Brian Mak Ronglai Zuo

Résumé

La structure fondamentale de la plupart des modèles de reconnaissance continue de la langue des signes basés sur l'apprentissage profond (CSLR) repose sur un module visuel, un module séquentiel et un module d'alignement. Toutefois, ces architectures CSLR sont difficiles à entraîner de manière adéquate en se basant uniquement sur une perte de classification temporelle connexionniste. Dans ce travail, nous proposons deux contraintes auxiliaires visant à renforcer les architectures CSLR du point de vue de la cohérence. La première contrainte vise à améliorer le module visuel, qui est particulièrement sujet au problème d'entraînement insuffisant. En effet, étant donné que les langues des signes transmettent principalement l'information à travers les visages et les mains des signants, nous intégrons un module d'attention spatiale guidée par des points clés dans le module visuel afin de forcer celui-ci à se concentrer sur les régions informatives, assurant ainsi une cohérence d'attention spatiale. Néanmoins, renforcer uniquement le module visuel ne permet pas d'exploiter pleinement le potentiel de l'architecture. Motivés par le fait que les caractéristiques de sortie des modules visuel et séquentiel représentent la même phrase, nous introduisons une contrainte supplémentaire de cohérence d'embedding de phrase entre ces deux modules, afin d'améliorer ainsi la puissance représentationnelle des deux types de caractéristiques. Les résultats expérimentaux obtenus sur trois architectures représentatives confirment l'efficacité des deux contraintes. Plus remarquablement, en utilisant une architecture basée sur un transformateur, notre modèle atteint des performances de pointe ou compétitives sur trois benchmarks : PHOENIX-2014, PHOENIX-2014-T et CSL.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
C2SLR : Reconnaissance continue des langues des signes renforcée par la cohérence | Articles | HyperAI