HyperAIHyperAI
il y a 10 jours

Réseaux SpotFast à transformateurs latéraux augmentés de mémoire pour la lecture labiale

Peratham Wiriyathammabhum
Réseaux SpotFast à transformateurs latéraux augmentés de mémoire pour la lecture labiale
Résumé

Cet article présente une nouvelle architecture d'apprentissage profond dédiée à la lecture labiale au niveau des mots. Les travaux antérieurs ont suggéré un potentiel à intégrer des réseaux neuronaux convolutifs profonds 3D pré-entraînés en tant qu'extracteurs de caractéristiques en amont. Nous introduisons les réseaux SpotFast, une variante des réseaux SlowFast d'avant-garde pour la reconnaissance d'actions, qui utilise une fenêtre temporelle comme voie « spot » et l'ensemble des cadres comme voie « fast ». Nous intégrons par ailleurs des transformateurs latéraux augmentés de mémoire afin d'apprendre des caractéristiques séquentielles pour la classification. Nous évaluons le modèle proposé sur le jeu de données LRW. Les expériences montrent que notre modèle dépasse diverses architectures d'avant-garde et que l'intégration des transformateurs latéraux augmentés de mémoire améliore les performances des SpotFast de 3,7 %.

Réseaux SpotFast à transformateurs latéraux augmentés de mémoire pour la lecture labiale | Articles de recherche récents | HyperAI