Base De Données De Discours De Conférence Multicanaux Chinois AISHELL-4
Date
Taille
URL de publication
Catégories
AISHELL-4 est un ensemble de données vocales en mandarin enregistrées à grande échelle et collectées par un réseau de microphones circulaires à 8 canaux pour le traitement de la parole dans les scénarios de conférence.L'ensemble de données comprend 211 sessions de conférence enregistrées, chacune contenant de 4 à 8 intervenants, d'une durée totale de 120 heures.Cet ensemble de données vise à combiner des recherches avancées et des scénarios d'application pratique du traitement multi-locuteurs sous trois aspects. En utilisant de véritables conférences enregistrées, AISHELL-4 fournit des effets acoustiques réalistes et des fonctionnalités vocales naturelles riches dans les conversations, telles que de courtes pauses, des chevauchements de discours, des tours de parole rapides, du bruit, etc. Dans le même temps, une transcription précise et une activité vocale de l'orateur sont fournies pour chaque réunion dans AISHELL. Cela permet aux chercheurs d'explorer différents aspects du traitement des conférences, depuis des tâches individuelles telles que le traitement frontal de la parole, la reconnaissance vocale et la diarisation des locuteurs, jusqu'à la modélisation multimodale et l'optimisation conjointe des tâches connexes. L’équipe de recherche a également publié un cadre de formation et d’évaluation basé sur PyTorch comme système de base pour promouvoir la recherche reproductible dans ce domaine.