100.000 Podcasts: Eine gesprochene Englisch-Dokumenten-Korpus

Podcasts stellen eine große und stetig wachsende Sammlung gesprochener Audioinhalte dar. Als Audioformat sind Podcasts stilistisch und produktionsmäßig vielfältiger als Rundfunknachrichten, enthalten eine größere Vielzahl an Genres als üblicherweise in Videodaten untersucht wird, und sind stilistisch sowie in ihrer Struktur vielfältiger als frühere Korpora gesprochener Gespräche. Bei der Transkription mittels automatischer Spracherkennung ergeben sie eine geräuscherfüllte, jedoch faszinierende Sammlung von Dokumenten, die durch die Perspektiven der natürlichen Sprachverarbeitung, Informationsretrieval und Linguistik untersucht werden können. In Kombination mit den Audio-Dateien stellen sie zudem eine Ressource für die Sprachverarbeitung sowie die Erforschung paralinguistischer, soziolinguistischer und akustischer Aspekte des Bereichs dar. Wir stellen das Spotify Podcast Dataset vor, ein neues Korpus mit 100.000 Podcasts. Anhand einer Fallstudie zu zwei Aufgaben – (1) Passage-Suche und (2) Zusammenfassung – demonstrieren wir die Komplexität dieses Domänenbereichs. Dieses Korpus ist um Größenordnungen größer als bisher für Such- und Zusammenfassungsaufgaben verwendete Sprachkorpora. Unsere Ergebnisse zeigen, dass die Größe und Vielfalt dieses Korpus neue Forschungsperspektiven eröffnet.