LRW-1000 : Un Benchmark Naturellement Distribué à Grande Échelle pour la Lecture Labiale dans des Conditions Réelles

Les grands ensembles de données ont successivement démontré leur importance fondamentale dans plusieurs domaines de recherche, en particulier pour les progrès initiaux dans certains sujets émergents. Dans cet article, nous nous concentrons sur le problème de la reconnaissance visuelle de la parole, également connu sous le nom de lecture labiale (lipreading), qui a suscité un intérêt croissant ces dernières années. Nous présentons une référence à grande échelle distribuée naturellement pour la lecture labiale en conditions réelles, nommée LRW-1000, qui contient 1 000 classes avec 718 018 échantillons provenant de plus de 2 000 locuteurs individuels. Chaque classe correspond aux syllabes d'un mot mandarin composé d'un ou plusieurs caractères chinois. Selon nos connaissances, c'est actuellement l'ensemble de données le plus important au niveau des mots pour la lecture labiale et aussi le seul ensemble de données mandarin à grande échelle publiquement disponible. Cet ensemble de données vise à couvrir une variabilité « naturelle » sur différents modes de parole et conditions d'imagerie afin d'intégrer les défis rencontrés dans les applications pratiques. Il présente une grande variabilité dans cette référence sous plusieurs aspects, notamment le nombre d'échantillons par classe, la résolution vidéo, les conditions d'éclairage et les attributs des locuteurs tels que la posture, l'âge, le sexe et le maquillage. Outre une description détaillée de l'ensemble de données et de sa chaîne de collecte, nous évaluons plusieurs méthodes populaires typiques de lecture labiale et effectuons une analyse approfondie des résultats sous plusieurs angles. Les résultats mettent en évidence la cohérence et les défis posés par notre ensemble de données, ce qui pourrait ouvrir des perspectives prometteuses pour les travaux futurs.