HyperAIHyperAI

Command Palette

Search for a command to run...

MediaSpeech: Multisprachiger ASR-Benchmark und Datensatz

Rostislav Kolobov Olga Okhapkina Olga Omelchishina Andrey Platunov Roman Bedyakin Vyacheslav Moshkin Dmitry Menshikov Nikolay Mikhaylovskiy

Zusammenfassung

Die Leistung von automatisierten Spracherkennungssystemen (ASR) ist bekanntermaßen von Anwendungsbereich zu Anwendungsbereich unterschiedlich. Gleichzeitig geben Hersteller und Forschungsgruppen typischerweise ASR-Qualitätsresultate entweder für begrenzte, vereinfachte Domänen (z. B. Hörbücher, TED-Talks) oder für proprietäre Datensätze an. Um diese Lücke zu schließen, präsentieren wir einen Open-Source-Datensatz zur ASR-Systembewertung mit einer Dauer von 10 Stunden, NTR MediaSpeech, für vier Sprachen: Spanisch, Französisch, Türkisch und Arabisch. Der Datensatz wurde aus den offiziellen YouTube-Kanälen von Medienorganisationen in den jeweiligen Sprachen gesammelt und manuell transkribiert. Wir schätzen, dass der WER (Word Error Rate) des Datensatzes unter 5 % liegt. Wir haben zahlreiche ASR-Systeme, sowohl kommerzielle als auch frei verfügbare, benchmarkt und stellen die Ergebnisse bereit. Zudem veröffentlichen wir Open-Source-Baselines mit QuartzNet-Modellen für jede der vier Sprachen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp