Speechocean762 : Un corpus de parole en anglais non natif open-source pour l'évaluation de la prononciation

Ce document présente un nouveau corpus de parole en open source nommé « Speechocean762 » conçu pour l'évaluation de la prononciation. Il est composé de 5000 phrases en anglais prononcées par 250 locuteurs non natifs, dont la moitié sont des enfants. Chaque phrase a été annotée au niveau de la phrase, du mot et du phonème par cinq experts. Un système de référence est mis à disposition en open source pour illustrer le flux de travail d'évaluation de la prononciation au niveau des phonèmes sur ce corpus. Ce corpus peut être utilisé librement à des fins commerciales et non commerciales. Il est disponible gratuitement pour téléchargement sur OpenSLR, et le système de référence correspondant est publié dans le kit d'outils de reconnaissance vocale Kaldi.