HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux SpotFast à transformateurs latéraux augmentés de mémoire pour la lecture labiale

Peratham Wiriyathammabhum

Résumé

Cet article présente une nouvelle architecture d'apprentissage profond dédiée à la lecture labiale au niveau des mots. Les travaux antérieurs ont suggéré un potentiel à intégrer des réseaux neuronaux convolutifs profonds 3D pré-entraînés en tant qu'extracteurs de caractéristiques en amont. Nous introduisons les réseaux SpotFast, une variante des réseaux SlowFast d'avant-garde pour la reconnaissance d'actions, qui utilise une fenêtre temporelle comme voie « spot » et l'ensemble des cadres comme voie « fast ». Nous intégrons par ailleurs des transformateurs latéraux augmentés de mémoire afin d'apprendre des caractéristiques séquentielles pour la classification. Nous évaluons le modèle proposé sur le jeu de données LRW. Les expériences montrent que notre modèle dépasse diverses architectures d'avant-garde et que l'intégration des transformateurs latéraux augmentés de mémoire améliore les performances des SpotFast de 3,7 %.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux SpotFast à transformateurs latéraux augmentés de mémoire pour la lecture labiale | Articles | HyperAI