HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole

CAS-VSR-W1k-Datensatz Zur Lippenleseerkennung

Datum

vor 3 Jahren

Organisation

Veröffentlichungs-URL

vipl.ict.ac.cn

Paper-URL

arxiv.org

Lizenz

Nicht-kommerziell

Treten Sie der Discord-Community bei
Featured Image

CAS-VSR-W1k, früher bekannt als LRW-1000, ist der größte öffentlich verfügbare Datensatz zum Lippenlesen auf Mandarin-Vokabularebene. Der Datensatz enthält 1.000 Wortklassen und umfasst 700.000 Beispiele von mehr als 2.000 Sprechern. Der Datensatz enthält mehr als 1.000.000 Instanzen chinesischer Schriftzeichen.

Jede Kategorie entspricht einer Silbe eines Mandarin-Wortes, das aus einem oder mehreren chinesischen Schriftzeichen besteht. Der Datensatz ist so konzipiert, dass er natürliche Variationen in verschiedenen Sprachmodalitäten und Bildgebungsbedingungen abdeckt, um Herausforderungen zu berücksichtigen, die in realen Anwendungen auftreten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp