CAS-VSR-W1k-Datensatz Zur Lippenleseerkennung
Datum
Veröffentlichungs-URL
Paper-URL
Lizenz
Nicht-kommerziell

CAS-VSR-W1k, früher bekannt als LRW-1000, ist der größte öffentlich verfügbare Datensatz zum Lippenlesen auf Mandarin-Vokabularebene. Der Datensatz enthält 1.000 Wortklassen und umfasst 700.000 Beispiele von mehr als 2.000 Sprechern. Der Datensatz enthält mehr als 1.000.000 Instanzen chinesischer Schriftzeichen.
Jede Kategorie entspricht einer Silbe eines Mandarin-Wortes, das aus einem oder mehreren chinesischen Schriftzeichen besteht. Der Datensatz ist so konzipiert, dass er natürliche Variationen in verschiedenen Sprachmodalitäten und Bildgebungsbedingungen abdeckt, um Herausforderungen zu berücksichtigen, die in realen Anwendungen auftreten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.