Command Palette
Search for a command to run...
MediaSpeech: Multisprachiger ASR-Benchmark und Datensatz
MediaSpeech: Multisprachiger ASR-Benchmark und Datensatz
Rostislav Kolobov Olga Okhapkina Olga Omelchishina Andrey Platunov Roman Bedyakin Vyacheslav Moshkin Dmitry Menshikov Nikolay Mikhaylovskiy
Zusammenfassung
Die Leistung von automatisierten Spracherkennungssystemen (ASR) ist bekanntermaßen von Anwendungsbereich zu Anwendungsbereich unterschiedlich. Gleichzeitig geben Hersteller und Forschungsgruppen typischerweise ASR-Qualitätsresultate entweder für begrenzte, vereinfachte Domänen (z. B. Hörbücher, TED-Talks) oder für proprietäre Datensätze an. Um diese Lücke zu schließen, präsentieren wir einen Open-Source-Datensatz zur ASR-Systembewertung mit einer Dauer von 10 Stunden, NTR MediaSpeech, für vier Sprachen: Spanisch, Französisch, Türkisch und Arabisch. Der Datensatz wurde aus den offiziellen YouTube-Kanälen von Medienorganisationen in den jeweiligen Sprachen gesammelt und manuell transkribiert. Wir schätzen, dass der WER (Word Error Rate) des Datensatzes unter 5 % liegt. Wir haben zahlreiche ASR-Systeme, sowohl kommerzielle als auch frei verfügbare, benchmarkt und stellen die Ergebnisse bereit. Zudem veröffentlichen wir Open-Source-Baselines mit QuartzNet-Modellen für jede der vier Sprachen.