HyperAI

CAS-VSR-W1k-Datensatz Zur Lippenleseerkennung

Datum

vor 3 Jahren

Organisation

Veröffentlichungs-URL

vipl.ict.ac.cn

Lizenz

非商业用途

Kategorien

Download-Hilfe
特色图像

CAS-VSR-W1k, früher bekannt als LRW-1000, ist der größte öffentlich verfügbare Datensatz zum Lippenlesen auf Mandarin-Vokabularebene. Der Datensatz enthält 1.000 Wortklassen und umfasst 700.000 Beispiele von mehr als 2.000 Sprechern. Der Datensatz enthält mehr als 1.000.000 Instanzen chinesischer Schriftzeichen.

Jede Kategorie entspricht einer Silbe eines Mandarin-Wortes, das aus einem oder mehreren chinesischen Schriftzeichen besteht. Der Datensatz ist so konzipiert, dass er natürliche Variationen in verschiedenen Sprachmodalitäten und Bildgebungsbedingungen abdeckt, um Herausforderungen zu berücksichtigen, die in realen Anwendungen auftreten.