MediaSpeech: Multisprachiger ASR-Benchmark und Datensatz

Die Leistung von automatisierten Spracherkennungssystemen (ASR) ist bekanntermaßen von Anwendungsbereich zu Anwendungsbereich unterschiedlich. Gleichzeitig geben Hersteller und Forschungsgruppen typischerweise ASR-Qualitätsresultate entweder für begrenzte, vereinfachte Domänen (z. B. Hörbücher, TED-Talks) oder für proprietäre Datensätze an. Um diese Lücke zu schließen, präsentieren wir einen Open-Source-Datensatz zur ASR-Systembewertung mit einer Dauer von 10 Stunden, NTR MediaSpeech, für vier Sprachen: Spanisch, Französisch, Türkisch und Arabisch. Der Datensatz wurde aus den offiziellen YouTube-Kanälen von Medienorganisationen in den jeweiligen Sprachen gesammelt und manuell transkribiert. Wir schätzen, dass der WER (Word Error Rate) des Datensatzes unter 5 % liegt. Wir haben zahlreiche ASR-Systeme, sowohl kommerzielle als auch frei verfügbare, benchmarkt und stellen die Ergebnisse bereit. Zudem veröffentlichen wir Open-Source-Baselines mit QuartzNet-Modellen für jede der vier Sprachen.