HyperAIHyperAI

Command Palette

Search for a command to run...

Espresso : un outil rapide de reconnaissance neurale automatique de la parole en bout-en-bout

Yiming Wang Tongfei Chen Hainan Xu Shuoyang Ding Hang Lv Yiwen Shao Nanyun Peng Lei Xie Shinji Watanabe Sanjeev Khudanpur

Résumé

Nous présentons Espresso, un outil open source, modulaire et extensible pour la reconnaissance automatique de la parole (ASR) end-to-end basé sur la bibliothèque d’apprentissage profond PyTorch et sur le cadre populaire de traduction automatique par machines fairseq. Espresso prend en charge l’entraînement distribué sur plusieurs GPU et nœuds de calcul, et propose diverses méthodes de décodage couramment utilisées en ASR, notamment la fusion avec modèle linguistique basé sur les mots et exploitant une anticipation (look-ahead), pour laquelle un décodeur rapide et parallélisé a été implémenté. Espresso atteint des performances de pointe en ASR sur les jeux de données WSJ, LibriSpeech et Switchboard, parmi les systèmes end-to-end, sans recours à des augmentations de données, et se distingue par une vitesse de décodage 4 à 11 fois supérieure à celle de systèmes similaires (par exemple, ESPnet).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Espresso : un outil rapide de reconnaissance neurale automatique de la parole en bout-en-bout | Articles | HyperAI