HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur Multimodal Localement Amélioré pour la Reconnaissance Continue de la Langue des Signes

Gerasimos Potamianos Katerina Papadimitriou

Résumé

Dans cet article, nous proposons une nouvelle approche fondée sur les Transformers pour la reconnaissance continue des langues des signes (CSLR) à partir de vidéos, visant à pallier les limites des Transformers traditionnels dans l’apprentissage du contexte sémantique local des signes. Plus précisément, l’approche proposée repose sur deux composants distincts : (a) un module RNN basé sur fenêtres, conçu pour capturer le contexte temporel local, et (b) un encodeur Transformer amélioré par une modélisation locale via un biais gaussien et des informations de position relative, ainsi que par une modélisation de la structure globale grâce à une attention multi-têtes. Pour renforcer davantage les performances du modèle, nous avons conçu un cadre multimodal qui applique la méthode proposée aux deux flux visuels — apparence et mouvement — en alignant leurs sorties postérieures via une technique de guidage basée sur CTC. En outre, nous atteignons une alignement entre les caractéristiques visuelles et les séquences de gloss en intégrant une perte de distillation de connaissance. Une évaluation expérimentale sur deux jeux de données populaires allemands pour la CSLR démontre l’efficacité supérieure de notre modèle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformateur Multimodal Localement Amélioré pour la Reconnaissance Continue de la Langue des Signes | Articles | HyperAI