HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de la Parole Audio-Visuelle Profonde

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Résumé

L'objectif de cette étude est de reconnaître les phrases et les propositions prononcées par un visage parlant, avec ou sans le son. Contrairement aux travaux précédents qui se sont concentrés sur la reconnaissance d'un nombre limité de mots ou de phrases, nous abordons la lecture labiale comme un problème du monde ouvert – des phrases en langage naturel non contraintes et des vidéos en conditions réelles. Nos contributions principales sont les suivantes : (1) nous comparons deux modèles pour la lecture labiale, l'un utilisant une perte CTC (Connectionist Temporal Classification), et l'autre utilisant une perte séquence-à-séquence. Les deux modèles reposent sur l'architecture de l'auto-attention du transformateur ; (2) nous examinons dans quelle mesure la lecture labiale est complémentaire à la reconnaissance vocale, en particulier lorsque le signal audio est bruyant ; (3) nous présentons et mettons à disposition publiquement un nouveau jeu de données pour la reconnaissance audiovisuelle de la parole, LRS2-BBC, composé de milliers de phrases naturelles issues de la télévision britannique. Les modèles que nous entraînons surpassent significativement les performances de tous les travaux antérieurs sur un jeu de données de référence pour la lecture labiale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp