HyperAIHyperAI
il y a 2 mois

Speechocean762 : Un corpus de parole en anglais non natif open-source pour l'évaluation de la prononciation

Junbo Zhang; Zhiwen Zhang; Yongqing Wang; Zhiyong Yan; Qiong Song; Yukai Huang; Ke Li; Daniel Povey; Yujun Wang
Speechocean762 : Un corpus de parole en anglais non natif open-source pour l'évaluation de la prononciation
Résumé

Ce document présente un nouveau corpus de parole en open source nommé « Speechocean762 » conçu pour l'évaluation de la prononciation. Il est composé de 5000 phrases en anglais prononcées par 250 locuteurs non natifs, dont la moitié sont des enfants. Chaque phrase a été annotée au niveau de la phrase, du mot et du phonème par cinq experts. Un système de référence est mis à disposition en open source pour illustrer le flux de travail d'évaluation de la prononciation au niveau des phonèmes sur ce corpus. Ce corpus peut être utilisé librement à des fins commerciales et non commerciales. Il est disponible gratuitement pour téléchargement sur OpenSLR, et le système de référence correspondant est publié dans le kit d'outils de reconnaissance vocale Kaldi.