Ensemble De Données De Conversation Chinoise Pour Enfants ChildMandarin
Date
Taille
URL de publication
Catégories
L'ensemble de données ChildMandarin est un ensemble complet de données vocales en mandarin pour les enfants âgés de 3 à 5 ans, publié en 2025 par l'AI Research Institute et le Human Language Technology Laboratory (HLT Lab) de l'École d'informatique de l'Université de Nankai. Cet ensemble de données est conçu pour résoudre le problème de la rareté des données sur la parole en mandarin pour cette tranche d’âge. Les résultats pertinents de l'étude sont les suivants :ChildMandarin : un ensemble complet de données sur le discours en mandarin pour les jeunes enfants de 3 à 5 ans", qui vise à soutenir le développement de domaines de recherche connexes tels que la reconnaissance vocale des enfants et la vérification du locuteur.
Caractéristiques du jeu de données :
- Grande taille de données : 397 enfants, totalisant 41,25 heures de discours conversationnel de 3 à 5 ans, ce qui présente certains avantages par rapport aux ensembles de données similaires
- Large couverture géographique : les données sont collectées dans 22 provinces et villes, garantissant ainsi la diversité régionale et couvrant différents accents et habitudes de parole
- Interaction naturelle et réaliste : la méthode de collecte du dialogue guidé par les parents est adoptée pour simuler des scènes de communication naturelles et rendre la voix plus réaliste.