HyperAIHyperAI

Command Palette

Search for a command to run...

CAS-VSR-W1k-Datensatz Zur Lippenleseerkennung

Auf Discord diskutieren

Datum

vor 3 Jahren

Organisation

Veröffentlichungs-URL

vipl.ict.ac.cn

Paper-URL

arxiv.org

Lizenz

Non-Commercial

Featured Image

CAS-VSR-W1k, früher bekannt als LRW-1000, ist der größte öffentlich verfügbare Datensatz zum Lippenlesen auf Mandarin-Vokabularebene. Der Datensatz enthält 1.000 Wortklassen und umfasst 700.000 Beispiele von mehr als 2.000 Sprechern. Der Datensatz enthält mehr als 1.000.000 Instanzen chinesischer Schriftzeichen.

Jede Kategorie entspricht einer Silbe eines Mandarin-Wortes, das aus einem oder mehreren chinesischen Schriftzeichen besteht. Der Datensatz ist so konzipiert, dass er natürliche Variationen in verschiedenen Sprachmodalitäten und Bildgebungsbedingungen abdeckt, um Herausforderungen zu berücksichtigen, die in realen Anwendungen auftreten.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp