HyperAIHyperAI

Command Palette

Search for a command to run...

Lecture labiale de phrases dans des conditions naturelles

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Résumé

L'objectif de ce travail est de reconnaître les phrases et les propositions prononcées par un visage parlant, avec ou sans le son. Contrairement aux travaux précédents qui se sont concentrés sur la reconnaissance d'un nombre limité de mots ou de phrases, nous abordons la lecture labiale comme un problème du monde ouvert - des phrases en langage naturel non contraintes, et des vidéos en conditions réelles.Nos principales contributions sont : (1) un réseau « Watch, Listen, Attend and Spell » (WLAS) qui apprend à transcrire des vidéos de mouvements buccaux en caractères ; (2) une stratégie d'apprentissage par programme progressif pour accélérer l'entraînement et réduire le surapprentissage ; (3) un ensemble de données « Lip Reading Sentences » (LRS) pour la reconnaissance visuelle de la parole, composé de plus de 100 000 phrases naturelles issues de la télévision britannique.Le modèle WLAS formé sur l'ensemble de données LRS dépasse les performances de toutes les œuvres précédentes sur les ensembles de référence standard pour la lecture labiale, souvent avec une marge significative. Cette performance en lecture labiale bat celle d'un lecteur labial professionnel sur des vidéos provenant de la télévision BBC, et nous démontrons également que l'information visuelle aide à améliorer les performances de reconnaissance vocale même lorsque le son est disponible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp