HyperAIHyperAI

Command Palette

Search for a command to run...

Vers une lecture labiale pratique grâce à des modèles distillés et efficaces

Pingchuan Ma Brais Martinez Stavros Petridis Maja Pantic

Résumé

La lecture des lèvres a connu de grands progrès grâce à la renaissance des réseaux neuronaux. Les travaux récents se sont concentrés sur des aspects tels que l'amélioration des performances par la recherche d'une architecture optimale ou le renforcement de la généralisation. Toutefois, un écart significatif persiste entre les méthodologies actuelles et les exigences nécessaires à un déploiement efficace de la lecture des lèvres dans des scénarios réels. Dans ce travail, nous proposons une série d'innovations qui réduisent considérablement cet écart : tout d'abord, nous améliorons de manière marquée les performances de l'état de l'art sur les jeux de données LRW et LRW-1000, atteignant respectivement 88,5 % et 46,6 % grâce à une distillation auto-supervisée. Ensuite, nous introduisons une série de modifications architecturales, notamment une nouvelle tête basée sur un réseau convolutif temporel séparable en profondeur (DS-TCN), qui réduit le coût computationnel à une fraction seulement du modèle original (déjà très efficace). Troisièmement, nous démontrons que la distillation de connaissances constitue un outil extrêmement efficace pour restaurer les performances des modèles légers. Cela permet d’obtenir une gamme de modèles offrant différents compromis entre précision et efficacité. Toutefois, nos modèles légers les plus prometteurs atteignent les performances de l’état de l’art actuel tout en réduisant respectivement de 8,2 fois le coût computationnel et de 3,9 fois le nombre de paramètres, ce que nous espérons permettra le déploiement de modèles de lecture des lèvres dans des applications pratiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers une lecture labiale pratique grâce à des modèles distillés et efficaces | Articles | HyperAI