HyperAIHyperAI

Command Palette

Search for a command to run...

Granary : Jeu de données de reconnaissance et de traduction vocales dans 25 langues européennes

Nithin Rao Koluguri Monica Sekoyan George Zelenfroynd Sasha Meister Shuoyang Ding et al

Résumé

Les approches multi-tâches et multilingues profitent aux grands modèles, mais le traitement de la parole pour les langues à faible ressource reste largement sous-exploité en raison du manque de données. Pour remédier à ce problème, nous présentons Granary, une collection à grande échelle de jeux de données audio pour la reconnaissance et la traduction dans 25 langues européennes. Il s’agit du premier effort open source à cette échelle pour la transcription et la traduction. Nous améliorons la qualité des données grâce à un pipeline de pseudo-étiquetage comprenant la segmentation, une inférence en deux passes, le filtrage des hallucinations et la restauration de la ponctuation. Nous générons par la suite des paires de traduction à partir des transcriptions pseudo-étiquetées à l’aide d’EuroLLM, suivies d’un pipeline de filtration des données. Conçu pour l’efficacité, notre pipeline traite de vastes volumes de données en quelques heures. Nous évaluons les modèles entraînés sur ces données traitées en comparant leurs performances sur des jeux de données précédemment curatifs, tant pour les langues à forte que pour celles à faible ressource. Nos résultats montrent que ces modèles atteignent des performances similaires en utilisant approximativement 50 % moins de données. Le jeu de données sera mis à disposition à l’adresse suivante : https://url-de-distribution.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Granary : Jeu de données de reconnaissance et de traduction vocales dans 25 langues européennes | Articles | HyperAI