il y a 7 mois

Résumé

L'objectif de cette étude est de reconnaître les phrases et les propositions prononcées par un visage parlant, avec ou sans le son. Contrairement aux travaux précédents qui se sont concentrés sur la reconnaissance d'un nombre limité de mots ou de phrases, nous abordons la lecture labiale comme un problème du monde ouvert – des phrases en langage naturel non contraintes et des vidéos en conditions réelles. Nos contributions principales sont les suivantes : (1) nous comparons deux modèles pour la lecture labiale, l'un utilisant une perte CTC (Connectionist Temporal Classification), et l'autre utilisant une perte séquence-à-séquence. Les deux modèles reposent sur l'architecture de l'auto-attention du transformateur ; (2) nous examinons dans quelle mesure la lecture labiale est complémentaire à la reconnaissance vocale, en particulier lorsque le signal audio est bruyant ; (3) nous présentons et mettons à disposition publiquement un nouveau jeu de données pour la reconnaissance audiovisuelle de la parole, LRS2-BBC, composé de milliers de phrases naturelles issues de la télévision britannique. Les modèles que nous entraînons surpassent significativement les performances de tous les travaux antérieurs sur un jeu de données de référence pour la lecture labiale.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Traitement Audio Et Vocal

Compréhension Vidéo

Audio

Multimodal

Vision Par Ordinateur

Tâche

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Traitement Audio Et Vocal

Compréhension Vidéo

Audio

Multimodal

Vision Par Ordinateur

Tâche

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Reconnaissance de la Parole Audio-Visuelle Profonde

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance de la Parole Audio-Visuelle Profonde

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance de la Parole Audio-Visuelle Profonde

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters