il y a 7 mois

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Résumé

Les grands ensembles de données ont successivement démontré leur importance fondamentale dans plusieurs domaines de recherche, en particulier pour les progrès initiaux dans certains sujets émergents. Dans cet article, nous nous concentrons sur le problème de la reconnaissance visuelle de la parole, également connu sous le nom de lecture labiale (lipreading), qui a suscité un intérêt croissant ces dernières années. Nous présentons une référence à grande échelle distribuée naturellement pour la lecture labiale en conditions réelles, nommée LRW-1000, qui contient 1 000 classes avec 718 018 échantillons provenant de plus de 2 000 locuteurs individuels. Chaque classe correspond aux syllabes d'un mot mandarin composé d'un ou plusieurs caractères chinois. Selon nos connaissances, c'est actuellement l'ensemble de données le plus important au niveau des mots pour la lecture labiale et aussi le seul ensemble de données mandarin à grande échelle publiquement disponible. Cet ensemble de données vise à couvrir une variabilité « naturelle » sur différents modes de parole et conditions d'imagerie afin d'intégrer les défis rencontrés dans les applications pratiques. Il présente une grande variabilité dans cette référence sous plusieurs aspects, notamment le nombre d'échantillons par classe, la résolution vidéo, les conditions d'éclairage et les attributs des locuteurs tels que la posture, l'âge, le sexe et le maquillage. Outre une description détaillée de l'ensemble de données et de sa chaîne de collecte, nous évaluons plusieurs méthodes populaires typiques de lecture labiale et effectuons une analyse approfondie des résultats sous plusieurs angles. Les résultats mettent en évidence la cohérence et les défis posés par notre ensemble de données, ce qui pourrait ouvrir des perspectives prometteuses pour les travaux futurs.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Vision Par Ordinateur

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Vision Par Ordinateur

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

LRW-1000 : Un Benchmark Naturellement Distribué à Grande Échelle pour la Lecture Labiale dans des Conditions Réelles | Articles | HyperAI

Command Palette

LRW-1000 : Un Benchmark Naturellement Distribué à Grande Échelle pour la Lecture Labiale dans des Conditions Réelles

Shuang Yang*1, Yuanhang Zhang*2, Dalu Feng*1,2, Mingmin Yang*4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LRW-1000 : Un Benchmark Naturellement Distribué à Grande Échelle pour la Lecture Labiale dans des Conditions Réelles

Shuang Yang*1, Yuanhang Zhang*2, Dalu Feng*1,2, Mingmin Yang*4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LRW-1000 : Un Benchmark Naturellement Distribué à Grande Échelle pour la Lecture Labiale dans des Conditions Réelles

Shuang Yang*1, Yuanhang Zhang*2, Dalu Feng*1,2, Mingmin Yang*4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2