HyperAIHyperAI

Command Palette

Search for a command to run...

MediaSpeech : Benchmark et jeu de données multilingue pour la reconnaissance automatique de la parole

Rostislav Kolobov Olga Okhapkina Olga Omelchishina Andrey Platunov Roman Bedyakin Vyacheslav Moshkin Dmitry Menshikov Nikolay Mikhaylovskiy

Résumé

La performance des systèmes de reconnaissance automatique de la parole (ASR) est bien connue pour varier selon les domaines d'application. Parallèlement, les fournisseurs et les groupes de recherche rapportent généralement les résultats de qualité ASR soit pour des domaines limités et simplifiés (livres audio, conférences TED), soit pour des jeux de données propriétaires. Pour combler cet écart, nous proposons un jeu de données d'évaluation ASR open source de 10 heures, intitulé NTR MediaSpeech, couvrant quatre langues : espagnol, français, turc et arabe. Ce jeu de données a été collecté à partir des chaînes YouTube officielles des médias dans les langues correspondantes, puis transcrit manuellement. Nous estimons que le taux d'erreur de mot (WER) de ce jeu de données est inférieur à 5 %. Nous avons établi des benchmarks pour de nombreux systèmes ASR disponibles à la fois commercialement et gratuitement, et fournissons les résultats de ces benchmarks. Nous mettons également à disposition, sous licence open source, des modèles de base QuartzNet pour chacune des langues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp