il y a 6 mois

Résumé

Les approches actuelles de pointe en lecture labiale reposent sur des architectures séquence-à-séquence conçues initialement pour la traduction automatique du langage naturel et la reconnaissance vocale. Par conséquent, ces méthodes ne tirent pas pleinement parti des caractéristiques propres aux dynamiques labiales, ce qui entraîne deux inconvénients majeurs. Premièrement, les dépendances temporelles à court terme, qui sont cruciales pour la correspondance entre les images labiales et les visèmes, ne reçoivent pas d’attention particulière. Deuxièmement, les informations spatiales locales sont perdues dans les modèles séquentiels existants en raison de l’utilisation du pooling moyen global (GAP). Pour surmonter efficacement ces limitations, nous proposons un bloc Temporal Focal afin de modéliser de manière adéquate les dépendances à court terme, ainsi qu’un module de fusion spatio-temporelle (STFM) capable de préserver les informations spatiales locales tout en réduisant les dimensions des caractéristiques. Les résultats expérimentaux démontrent que notre méthode atteint des performances comparables à celles des approches de pointe, tout en nécessitant beaucoup moins de données d’entraînement et un extracteur de caractéristiques convolutif bien plus léger. Le temps d’entraînement est réduit de 12 jours grâce à la structure convolutive et au mécanisme d’attention locale.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réseau De Neurones Convolutif

Vision Par Ordinateur

Tâche

Shilin Wang Feng Cheng Xingxuan Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réseau De Neurones Convolutif

Vision Par Ordinateur

Tâche

Shilin Wang Feng Cheng Xingxuan Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Apprentissage de séquence convolutif fondé sur la fusion spatio-temporelle pour la lecture des lèvres

Shilin Wang Feng Cheng Xingxuan Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de séquence convolutif fondé sur la fusion spatio-temporelle pour la lecture des lèvres

Shilin Wang Feng Cheng Xingxuan Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de séquence convolutif fondé sur la fusion spatio-temporelle pour la lecture des lèvres

Shilin Wang Feng Cheng Xingxuan Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters