il y a 7 mois

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy

Résumé

Les podcasts constituent un réservoir important et en croissance constante d’audio parlé. En tant que format audio, les podcasts sont plus variés en style et en type de production que les actualités diffusées en radio, englobent un plus grand nombre de genres que ceux habituellement étudiés dans les données vidéo, et présentent une plus grande diversité de style et de format que les corpus antérieurs de conversations. Lorsqu’ils sont transcrits à l’aide de la reconnaissance automatique de la parole, ils forment une collection bruitée mais fascinante de documents pouvant être analysés à travers les prismes du traitement du langage naturel, de la récupération d’information et de la linguistique. Associés à leurs fichiers audio, ils constituent également une ressource précieuse pour le traitement du parole et l’étude des aspects paralinguistiques, sociolinguistiques et acoustiques du domaine. Nous présentons ici le Spotify Podcast Dataset, un nouveau corpus comprenant 100 000 podcasts. Nous illustrons la complexité de ce domaine à travers une étude de cas portant sur deux tâches : (1) la recherche de passages et (2) la synthèse automatique. Ce corpus est d’un ordre de grandeur supérieur aux précédents corpus audio utilisés pour la recherche et la synthèse. Nos résultats montrent que la taille et la variabilité de ce corpus ouvrent de nouvelles perspectives pour la recherche.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Traitement Audio Et Vocal

Jeu De Données

Traitement Du Langage Naturel

Infrastructure D'ia

Traitement Du Langage Naturel

Audio

Tâche

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Traitement Audio Et Vocal

Jeu De Données

Traitement Du Langage Naturel

Infrastructure D'ia

Traitement Du Langage Naturel

Audio

Tâche

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

100 000 Podcasts : Un Corpus de Documents Parlés en Anglais

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

100 000 Podcasts : Un Corpus de Documents Parlés en Anglais

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

100 000 Podcasts : Un Corpus de Documents Parlés en Anglais

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy

Rosie Jones Ben Carterette Jussi Karlgren Gareth Jones Maria Eskevich Hamed Bonab Rezvaneh Rezapour Aasish Pappu Yongze Yu Sravana Reddy