100 000 Podcasts : Un Corpus de Documents Parlés en Anglais

Les podcasts constituent un réservoir important et en croissance constante d’audio parlé. En tant que format audio, les podcasts sont plus variés en style et en type de production que les actualités diffusées en radio, englobent un plus grand nombre de genres que ceux habituellement étudiés dans les données vidéo, et présentent une plus grande diversité de style et de format que les corpus antérieurs de conversations. Lorsqu’ils sont transcrits à l’aide de la reconnaissance automatique de la parole, ils forment une collection bruitée mais fascinante de documents pouvant être analysés à travers les prismes du traitement du langage naturel, de la récupération d’information et de la linguistique. Associés à leurs fichiers audio, ils constituent également une ressource précieuse pour le traitement du parole et l’étude des aspects paralinguistiques, sociolinguistiques et acoustiques du domaine. Nous présentons ici le Spotify Podcast Dataset, un nouveau corpus comprenant 100 000 podcasts. Nous illustrons la complexité de ce domaine à travers une étude de cas portant sur deux tâches : (1) la recherche de passages et (2) la synthèse automatique. Ce corpus est d’un ordre de grandeur supérieur aux précédents corpus audio utilisés pour la recherche et la synthèse. Nos résultats montrent que la taille et la variabilité de ce corpus ouvrent de nouvelles perspectives pour la recherche.