Europarl-ASR : un grand corpus de débats parlementaires pour l'évaluation des systèmes ASR en flux continu et le filtrage/verbalisation des données audio
Nous introduisons Europarl-ASR, un grand corpus parlé et textualisé de débats parlementaires comprenant 1 300 heures de discours transcrits et 70 millions de tokens de texte en anglais extraits des séances du Parlement européen. L'ensemble d'entraînement est étiqueté à l'aide des versions officielles non entièrement littérales du Parlement, alignées temporellement. Étant donné que la fidélité littérale (verbatimness) est cruciale pour l'entraînement des modèles acoustiques, nous fournissons également des transcriptions automatiquement filtrées des bruits et automatiquement verbatimisées pour l'ensemble des discours, basées sur des techniques de filtrage des données audio et de verbatimisation. En outre, 18 heures de discours transcrits ont été verbatimisées manuellement afin de constituer des ensembles de développement et de test fiables, à la fois dépendants et indépendants du locuteur, pour la benchmarking de systèmes de reconnaissance automatique de parole en temps réel (streaming ASR). La disponibilité de transcriptions manuelles non littérales et littérales pour les discours de développement et de test rend ce corpus particulièrement utile pour l'évaluation des techniques automatiques de filtrage et de verbatimisation. Ce papier décrit le corpus et son processus de création, et propose des jalons (baselines) pour la reconnaissance automatique de parole hors ligne et en streaming, tant pour les tâches dépendantes que indépendantes du locuteur, en utilisant les trois ensembles de transcriptions d'entraînement. Le corpus est mis à disposition publiquement sous une licence ouverte.