il y a 6 mois

Résumé

La lecture des lèvres a récemment attiré une attention croissante dans la recherche, grâce aux progrès réalisés dans le domaine du deep learning. Le modèle actuellement le plus performant pour la reconnaissance de mots isolés dans des environnements naturels repose sur un réseau résiduel combiné à des couches Bidirectionnelles à Unités Récurrentes à Portes (BGRU). Dans ce travail, nous abordons les limitations de ce modèle et proposons des modifications qui améliorent encore ses performances. Premièrement, les couches BGRU sont remplacées par des Réseaux de Convolutions Temporelles (TCN). Deuxièmement, nous simplifions considérablement la procédure d'entraînement, permettant ainsi d'entraîner le modèle en une seule phase. Troisièmement, nous montrons que la méthodologie actuelle du state-of-the-art produit des modèles qui ne généralisent pas bien aux variations de longueur des séquences, et nous résolvons ce problème en proposant une augmentation adaptée aux longueurs variables. Nous présentons nos résultats sur les plus grands jeux de données publics disponibles pour la reconnaissance de mots isolés en anglais et en mandarin, respectivement LRW et LRW1000. Notre modèle proposé obtient une amélioration absolue de 1,2 % et 3,2 % sur ces deux jeux de données, établissant ainsi une nouvelle performance de référence.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réseau De Neurones Convolutif

Multimodal

Apprentissage Profond

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réseau De Neurones Convolutif

Multimodal

Apprentissage Profond

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Lipreading à l’aide de réseaux de convolution temporelle | Articles | HyperAI

Command Palette

Lipreading à l’aide de réseaux de convolution temporelle

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Lipreading à l’aide de réseaux de convolution temporelle

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Lipreading à l’aide de réseaux de convolution temporelle

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters