HyperAIHyperAI

Command Palette

Search for a command to run...

Europarl-ASR : un grand corpus de débats parlementaires pour l'évaluation des systèmes ASR en flux continu et le filtrage/verbalisation des données audio

Résumé

Nous introduisons Europarl-ASR, un grand corpus parlé et textualisé de débats parlementaires comprenant 1 300 heures de discours transcrits et 70 millions de tokens de texte en anglais extraits des séances du Parlement européen. L'ensemble d'entraînement est étiqueté à l'aide des versions officielles non entièrement littérales du Parlement, alignées temporellement. Étant donné que la fidélité littérale (verbatimness) est cruciale pour l'entraînement des modèles acoustiques, nous fournissons également des transcriptions automatiquement filtrées des bruits et automatiquement verbatimisées pour l'ensemble des discours, basées sur des techniques de filtrage des données audio et de verbatimisation. En outre, 18 heures de discours transcrits ont été verbatimisées manuellement afin de constituer des ensembles de développement et de test fiables, à la fois dépendants et indépendants du locuteur, pour la benchmarking de systèmes de reconnaissance automatique de parole en temps réel (streaming ASR). La disponibilité de transcriptions manuelles non littérales et littérales pour les discours de développement et de test rend ce corpus particulièrement utile pour l'évaluation des techniques automatiques de filtrage et de verbatimisation. Ce papier décrit le corpus et son processus de création, et propose des jalons (baselines) pour la reconnaissance automatique de parole hors ligne et en streaming, tant pour les tâches dépendantes que indépendantes du locuteur, en utilisant les trois ensembles de transcriptions d'entraînement. Le corpus est mis à disposition publiquement sous une licence ouverte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Europarl-ASR : un grand corpus de débats parlementaires pour l'évaluation des systèmes ASR en flux continu et le filtrage/verbalisation des données audio | Articles | HyperAI