HyperAIHyperAI

Command Palette

Search for a command to run...

Entendre les lèvres : Améliorer la lecture des lèvres en distillant des systèmes de reconnaissance vocale

Ya Zhao Rui Xu Xinchao Wang Peng Hou Haihong Tang Mingli Song

Résumé

La lecture des lèvres a connu un développement sans précédent ces dernières années, grâce à l’apprentissage profond et à la disponibilité de grands jeux de données. Malgré les résultats encourageants obtenus, la performance de la lecture des lèvres reste, malheureusement, inférieure à celle de la reconnaissance vocale, en raison de la nature ambiguë des mouvements labiaux, qui rend difficile l’extraction de caractéristiques discriminantes à partir des vidéos de mouvements des lèvres. Dans cet article, nous proposons une nouvelle méthode, appelée Lip by Speech (LIBS), dont l’objectif est de renforcer la lecture des lèvres en apprenant à partir de modèles de reconnaissance vocale. La justification de notre approche repose sur le fait que les caractéristiques extraites par les systèmes de reconnaissance vocale peuvent fournir des indices complémentaires et discriminants, difficiles à obtenir à partir des mouvements subtils des lèvres, et contribuer ainsi à une meilleure formation des modèles de lecture des lèvres. Cela est réalisé spécifiquement par la distillation de connaissances à plusieurs granularités provenant des modèles de reconnaissance vocale vers les modèles de lecture des lèvres. Pour réaliser cette distillation de connaissances intermodale, nous utilisons une stratégie d’alignement efficace afin de gérer les longueurs inégales des séquences audio et vidéo, ainsi qu’une stratégie innovante de filtrage pour affiner les prédictions du système de reconnaissance vocale. La méthode proposée atteint un nouveau record sur les jeux de données CMLR et LRS2, surpassant la méthode de référence de 7,66 % et 2,75 % en taux d’erreur par caractère, respectivement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Entendre les lèvres : Améliorer la lecture des lèvres en distillant des systèmes de reconnaissance vocale | Articles | HyperAI