HyperAIHyperAI

Command Palette

Search for a command to run...

ASR est tout ce dont vous avez besoin : la distillation cross-modale pour la lecture des lèvres

Triantafyllos Afouras Joon Son Chung Andrew Zisserman

Résumé

L'objectif de ce travail est d'entraîner des modèles performants pour la reconnaissance de la parole visuelle sans nécessiter de données étiquetées par des humains. Nous y parvenons en effectuant une distillation à partir d'un modèle de reconnaissance automatique de la parole (ASR) entraîné sur un grand corpus audio uniquement. Nous utilisons une méthode de distillation intermodale qui combine la classification temporelle connexionniste (CTC) avec une perte d'entropie croisée par frame. Nos contributions sont quadruples : (i) nous montrons qu'il n'est pas nécessaire de disposer de transcriptions de vérité terrain pour entraîner un système de lecture des lèvres ; (ii) nous démontrons comment des quantités arbitraires de données vidéo non étiquetées peuvent être exploitées pour améliorer les performances ; (iii) nous illustrons que la distillation accélère considérablement le processus d'entraînement ; et (iv) nous obtenons des résultats de pointe sur les défis des jeux de données LRS2 et LRS3, en n'utilisant que des données disponibles publiquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ASR est tout ce dont vous avez besoin : la distillation cross-modale pour la lecture des lèvres | Articles | HyperAI