il y a 7 mois

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà

Résumé

Nous introduisons Europarl-ASR, un grand corpus parlé et textualisé de débats parlementaires comprenant 1 300 heures de discours transcrits et 70 millions de tokens de texte en anglais extraits des séances du Parlement européen. L'ensemble d'entraînement est étiqueté à l'aide des versions officielles non entièrement littérales du Parlement, alignées temporellement. Étant donné que la fidélité littérale (verbatimness) est cruciale pour l'entraînement des modèles acoustiques, nous fournissons également des transcriptions automatiquement filtrées des bruits et automatiquement verbatimisées pour l'ensemble des discours, basées sur des techniques de filtrage des données audio et de verbatimisation. En outre, 18 heures de discours transcrits ont été verbatimisées manuellement afin de constituer des ensembles de développement et de test fiables, à la fois dépendants et indépendants du locuteur, pour la benchmarking de systèmes de reconnaissance automatique de parole en temps réel (streaming ASR). La disponibilité de transcriptions manuelles non littérales et littérales pour les discours de développement et de test rend ce corpus particulièrement utile pour l'évaluation des techniques automatiques de filtrage et de verbatimisation. Ce papier décrit le corpus et son processus de création, et propose des jalons (baselines) pour la reconnaissance automatique de parole hors ligne et en streaming, tant pour les tâches dépendantes que indépendantes du locuteur, en utilisant les trois ensembles de transcriptions d'entraînement. Le corpus est mis à disposition publiquement sous une licence ouverte.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Reconnaissance Vocale

Traitement Audio Et Vocal

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Reconnaissance Vocale

Traitement Audio Et Vocal

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Europarl-ASR : un grand corpus de débats parlementaires pour l'évaluation des systèmes ASR en flux continu et le filtrage/verbalisation des données audio | Articles | HyperAI

Command Palette

Europarl-ASR : un grand corpus de débats parlementaires pour l'évaluation des systèmes ASR en flux continu et le filtrage/verbalisation des données audio

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Europarl-ASR : un grand corpus de débats parlementaires pour l'évaluation des systèmes ASR en flux continu et le filtrage/verbalisation des données audio

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Europarl-ASR : un grand corpus de débats parlementaires pour l'évaluation des systèmes ASR en flux continu et le filtrage/verbalisation des données audio

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà

Alfons Juan Albert Sanchis Jorge Civera Alejandro Pérez-González-de-Martos Nahuel Roselló Pau Baquero-Arnal Javier Iranzo-Sánchez Adrià Giménez Pastor Javier Jorge Joan-Albert Silvestre-Cerdà