CAS-VSR-W1k-Datensatz Zur Lippenleseerkennung
Datum
vor 3 Jahren
Veröffentlichungs-URL
Lizenz
非商业用途
Kategorien

CAS-VSR-W1k, früher bekannt als LRW-1000, ist der größte öffentlich verfügbare Datensatz zum Lippenlesen auf Mandarin-Vokabularebene. Der Datensatz enthält 1.000 Wortklassen und umfasst 700.000 Beispiele von mehr als 2.000 Sprechern. Der Datensatz enthält mehr als 1.000.000 Instanzen chinesischer Schriftzeichen.
Jede Kategorie entspricht einer Silbe eines Mandarin-Wortes, das aus einem oder mehreren chinesischen Schriftzeichen besteht. Der Datensatz ist so konzipiert, dass er natürliche Variationen in verschiedenen Sprachmodalitäten und Bildgebungsbedingungen abdeckt, um Herausforderungen zu berücksichtigen, die in realen Anwendungen auftreten.