MediaSpeech : Benchmark et jeu de données multilingue pour la reconnaissance automatique de la parole

La performance des systèmes de reconnaissance automatique de la parole (ASR) est bien connue pour varier selon les domaines d'application. Parallèlement, les fournisseurs et les groupes de recherche rapportent généralement les résultats de qualité ASR soit pour des domaines limités et simplifiés (livres audio, conférences TED), soit pour des jeux de données propriétaires. Pour combler cet écart, nous proposons un jeu de données d'évaluation ASR open source de 10 heures, intitulé NTR MediaSpeech, couvrant quatre langues : espagnol, français, turc et arabe. Ce jeu de données a été collecté à partir des chaînes YouTube officielles des médias dans les langues correspondantes, puis transcrit manuellement. Nous estimons que le taux d'erreur de mot (WER) de ce jeu de données est inférieur à 5 %. Nous avons établi des benchmarks pour de nombreux systèmes ASR disponibles à la fois commercialement et gratuitement, et fournissons les résultats de ces benchmarks. Nous mettons également à disposition, sous licence open source, des modèles de base QuartzNet pour chacune des langues.