HyperAIHyperAI

Command Palette

Search for a command to run...

Lipreading à l’aide de réseaux de convolution temporelle

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

Résumé

La lecture des lèvres a récemment attiré une attention croissante dans la recherche, grâce aux progrès réalisés dans le domaine du deep learning. Le modèle actuellement le plus performant pour la reconnaissance de mots isolés dans des environnements naturels repose sur un réseau résiduel combiné à des couches Bidirectionnelles à Unités Récurrentes à Portes (BGRU). Dans ce travail, nous abordons les limitations de ce modèle et proposons des modifications qui améliorent encore ses performances. Premièrement, les couches BGRU sont remplacées par des Réseaux de Convolutions Temporelles (TCN). Deuxièmement, nous simplifions considérablement la procédure d'entraînement, permettant ainsi d'entraîner le modèle en une seule phase. Troisièmement, nous montrons que la méthodologie actuelle du state-of-the-art produit des modèles qui ne généralisent pas bien aux variations de longueur des séquences, et nous résolvons ce problème en proposant une augmentation adaptée aux longueurs variables. Nous présentons nos résultats sur les plus grands jeux de données publics disponibles pour la reconnaissance de mots isolés en anglais et en mandarin, respectivement LRW et LRW1000. Notre modèle proposé obtient une amélioration absolue de 1,2 % et 3,2 % sur ces deux jeux de données, établissant ainsi une nouvelle performance de référence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp