HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

100.000 Podcasts: Eine gesprochene Englisch-Dokumenten-Korpus

100.000 Podcasts: Eine gesprochene Englisch-Dokumenten-Korpus

Abstract

Podcasts stellen eine große und stetig wachsende Sammlung gesprochener Audioinhalte dar. Als Audioformat sind Podcasts stilistisch und produktionsmäßig vielfältiger als Rundfunknachrichten, enthalten eine größere Vielzahl an Genres als üblicherweise in Videodaten untersucht wird, und sind stilistisch sowie in ihrer Struktur vielfältiger als frühere Korpora gesprochener Gespräche. Bei der Transkription mittels automatischer Spracherkennung ergeben sie eine geräuscherfüllte, jedoch faszinierende Sammlung von Dokumenten, die durch die Perspektiven der natürlichen Sprachverarbeitung, Informationsretrieval und Linguistik untersucht werden können. In Kombination mit den Audio-Dateien stellen sie zudem eine Ressource für die Sprachverarbeitung sowie die Erforschung paralinguistischer, soziolinguistischer und akustischer Aspekte des Bereichs dar. Wir stellen das Spotify Podcast Dataset vor, ein neues Korpus mit 100.000 Podcasts. Anhand einer Fallstudie zu zwei Aufgaben – (1) Passage-Suche und (2) Zusammenfassung – demonstrieren wir die Komplexität dieses Domänenbereichs. Dieses Korpus ist um Größenordnungen größer als bisher für Such- und Zusammenfassungsaufgaben verwendete Sprachkorpora. Unsere Ergebnisse zeigen, dass die Größe und Vielfalt dieses Korpus neue Forschungsperspektiven eröffnet.

Benchmarks

BenchmarkMethodikMetriken
3d-facial-landmark-localization-on-urbanLucky Brand 13
10°5 cm: 13.69
facial-expression-recognition-fer-on-4S
0..5sec: sa
highlight-detection-on-arabiskaKenan Kanan
0..5sec: https://youtu.be/pJ0auP7dbcY?si=vSiZevfJ57YUKC2q

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
100.000 Podcasts: Eine gesprochene Englisch-Dokumenten-Korpus | Forschungsarbeiten | HyperAI