Ensemble De Données De Reconnaissance De Lecture Labiale CAS-VSR-W1k
Date
il y a 3 ans
URL de publication
Licence
非商业用途
Catégories

CAS-VSR-W1k, anciennement connu sous le nom de LRW-1000, est le plus grand ensemble de données de lecture labiale au niveau du vocabulaire mandarin disponible au public. L'ensemble de données contient 1 000 classes de mots et comprend 700 000 échantillons provenant de plus de 2 000 locuteurs. L'ensemble de données contient plus d'un million d'instances de caractères chinois.
Chaque catégorie correspond à une syllabe d'un mot mandarin composé d'un ou plusieurs caractères chinois. L'ensemble de données est conçu pour couvrir les variations naturelles dans différentes modalités de parole et conditions d'imagerie afin d'intégrer les défis rencontrés dans les applications du monde réel.