HyperAIHyperAI
il y a 10 jours

Lecture des lèvres précise et efficace en ressources grâce à EfficientNetV2 et Transformers

{Gerasimos Potamianos, Alexandros Koumparoulis}
Résumé

Nous présentons une nouvelle architecture efficace en ressources et end-to-end pour la lecture labiale, qui atteint des résultats de pointe sur une base de référence populaire et exigeante. Plus précisément, nous apportons les contributions suivantes : premièrement, inspirés par le succès récent de l'architecture EfficientNet dans la classification d'images ainsi que par nos travaux antérieurs sur des modèles de lecture labiale à faible consommation de ressources (MobiLipNet), nous introduisons pour la première fois les EfficientNets dans la tâche de lecture labiale. Deuxièmement, nous démontrons que le front-end 3D actuellement le plus utilisé dans la littérature contient une couche de max-pooling qui entrave la performance des réseaux, et nous proposons de l’éliminer. Enfin, nous améliorons la robustesse du back-end de notre système en intégrant un encodeur Transformer. Nous évaluons notre architecture proposée sur le corpus « Lipreading In-The-Wild » (LRW), une base de données composée de courtes séquences vidéo issues de diffusions télévisées de la BBC. Le réseau proposé (variante T) atteint une précision de mot de 88,53 %, soit une amélioration absolue de 0,17 % par rapport à l’état de l’art actuel, tout en étant cinq fois moins intensif en calcul. En outre, une version élargie de notre modèle (variante L) atteint 89,52 %, établissant ainsi un nouveau record sur le corpus LRW.

Lecture des lèvres précise et efficace en ressources grâce à EfficientNetV2 et Transformers | Articles de recherche récents | HyperAI