HyperAIHyperAI
il y a 10 jours

Apprentissage de séquence convolutif fondé sur la fusion spatio-temporelle pour la lecture des lèvres

{ Shilin Wang, Feng Cheng, Xingxuan Zhang}
Apprentissage de séquence convolutif fondé sur la fusion spatio-temporelle pour la lecture des lèvres
Résumé

Les approches actuelles de pointe en lecture labiale reposent sur des architectures séquence-à-séquence conçues initialement pour la traduction automatique du langage naturel et la reconnaissance vocale. Par conséquent, ces méthodes ne tirent pas pleinement parti des caractéristiques propres aux dynamiques labiales, ce qui entraîne deux inconvénients majeurs. Premièrement, les dépendances temporelles à court terme, qui sont cruciales pour la correspondance entre les images labiales et les visèmes, ne reçoivent pas d’attention particulière. Deuxièmement, les informations spatiales locales sont perdues dans les modèles séquentiels existants en raison de l’utilisation du pooling moyen global (GAP). Pour surmonter efficacement ces limitations, nous proposons un bloc Temporal Focal afin de modéliser de manière adéquate les dépendances à court terme, ainsi qu’un module de fusion spatio-temporelle (STFM) capable de préserver les informations spatiales locales tout en réduisant les dimensions des caractéristiques. Les résultats expérimentaux démontrent que notre méthode atteint des performances comparables à celles des approches de pointe, tout en nécessitant beaucoup moins de données d’entraînement et un extracteur de caractéristiques convolutif bien plus léger. Le temps d’entraînement est réduit de 12 jours grâce à la structure convolutive et au mécanisme d’attention locale.