ChildMandarin – Datensatz Zur Chinesischen Konversationssprache Für Kinder
Datum
Größe
Veröffentlichungs-URL
Paper-URL
Der ChildMandarin-Datensatz ist ein umfassender Mandarin-Sprachdatensatz für Kinder im Alter von 3 bis 5 Jahren, der 2025 vom AI Research Institute und dem Human Language Technology Laboratory (HLT Lab) der School of Computer Science der Nankai University veröffentlicht wurde. Dieser Datensatz soll das Problem des Mangels an Mandarin-Sprachdaten für diese Altersgruppe lösen. Die relevanten Ergebnisse der Studie sind:ChildMandarin: Ein umfassender Mandarin-Sprachdatensatz für kleine Kinder im Alter von 3-5 Jahren“, dessen Ziel darin besteht, die Entwicklung verwandter Forschungsfelder wie Spracherkennung und Sprecherverifizierung bei Kindern zu unterstützen.
Datensatzfunktionen:
- Große Datenmenge: 397 Kinder, insgesamt 41,25 Stunden Konversationssprache im Alter von 3-5 Jahren, was gegenüber ähnlichen Datensätzen gewisse Vorteile bietet
- Breite geografische Abdeckung: Daten werden aus 22 Provinzen und Städten erhoben, um regionale Vielfalt sicherzustellen und unterschiedliche Akzente und Sprachgewohnheiten abzudecken
- Natürliche und realistische Interaktion: Die Erfassungsmethode des elterngeführten Dialogs wird übernommen, um natürliche Kommunikationsszenen zu simulieren und die Stimme realistischer zu gestalten.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.