HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de séquence convolutif fondé sur la fusion spatio-temporelle pour la lecture des lèvres

Shilin Wang Feng Cheng Xingxuan Zhang

Résumé

Les approches actuelles de pointe en lecture labiale reposent sur des architectures séquence-à-séquence conçues initialement pour la traduction automatique du langage naturel et la reconnaissance vocale. Par conséquent, ces méthodes ne tirent pas pleinement parti des caractéristiques propres aux dynamiques labiales, ce qui entraîne deux inconvénients majeurs. Premièrement, les dépendances temporelles à court terme, qui sont cruciales pour la correspondance entre les images labiales et les visèmes, ne reçoivent pas d’attention particulière. Deuxièmement, les informations spatiales locales sont perdues dans les modèles séquentiels existants en raison de l’utilisation du pooling moyen global (GAP). Pour surmonter efficacement ces limitations, nous proposons un bloc Temporal Focal afin de modéliser de manière adéquate les dépendances à court terme, ainsi qu’un module de fusion spatio-temporelle (STFM) capable de préserver les informations spatiales locales tout en réduisant les dimensions des caractéristiques. Les résultats expérimentaux démontrent que notre méthode atteint des performances comparables à celles des approches de pointe, tout en nécessitant beaucoup moins de données d’entraînement et un extracteur de caractéristiques convolutif bien plus léger. Le temps d’entraînement est réduit de 12 jours grâce à la structure convolutive et au mécanisme d’attention locale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp