HyperAIHyperAI
vor 11 Tagen

100.000 Podcasts: Eine gesprochene Englisch-Dokumenten-Korpus

{Rosie Jones, Ben Carterette, Jussi Karlgren, Gareth Jones, Maria Eskevich, Hamed Bonab, Rezvaneh Rezapour, Aasish Pappu, Yongze Yu, Sravana Reddy, Ann Clifton}
100.000 Podcasts: Eine gesprochene Englisch-Dokumenten-Korpus
Abstract

Podcasts stellen eine große und stetig wachsende Sammlung gesprochener Audioinhalte dar. Als Audioformat sind Podcasts stilistisch und produktionsmäßig vielfältiger als Rundfunknachrichten, enthalten eine größere Vielzahl an Genres als üblicherweise in Videodaten untersucht wird, und sind stilistisch sowie in ihrer Struktur vielfältiger als frühere Korpora gesprochener Gespräche. Bei der Transkription mittels automatischer Spracherkennung ergeben sie eine geräuscherfüllte, jedoch faszinierende Sammlung von Dokumenten, die durch die Perspektiven der natürlichen Sprachverarbeitung, Informationsretrieval und Linguistik untersucht werden können. In Kombination mit den Audio-Dateien stellen sie zudem eine Ressource für die Sprachverarbeitung sowie die Erforschung paralinguistischer, soziolinguistischer und akustischer Aspekte des Bereichs dar. Wir stellen das Spotify Podcast Dataset vor, ein neues Korpus mit 100.000 Podcasts. Anhand einer Fallstudie zu zwei Aufgaben – (1) Passage-Suche und (2) Zusammenfassung – demonstrieren wir die Komplexität dieses Domänenbereichs. Dieses Korpus ist um Größenordnungen größer als bisher für Such- und Zusammenfassungsaufgaben verwendete Sprachkorpora. Unsere Ergebnisse zeigen, dass die Größe und Vielfalt dieses Korpus neue Forschungsperspektiven eröffnet.

100.000 Podcasts: Eine gesprochene Englisch-Dokumenten-Korpus | Neueste Forschungsarbeiten | HyperAI