HyperAIHyperAI
il y a 17 jours

Espresso : un outil rapide de reconnaissance neurale automatique de la parole en bout-en-bout

Yiming Wang, Tongfei Chen, Hainan Xu, Shuoyang Ding, Hang Lv, Yiwen Shao, Nanyun Peng, Lei Xie, Shinji Watanabe, Sanjeev Khudanpur
Espresso : un outil rapide de reconnaissance neurale automatique de la parole en bout-en-bout
Résumé

Nous présentons Espresso, un outil open source, modulaire et extensible pour la reconnaissance automatique de la parole (ASR) end-to-end basé sur la bibliothèque d’apprentissage profond PyTorch et sur le cadre populaire de traduction automatique par machines fairseq. Espresso prend en charge l’entraînement distribué sur plusieurs GPU et nœuds de calcul, et propose diverses méthodes de décodage couramment utilisées en ASR, notamment la fusion avec modèle linguistique basé sur les mots et exploitant une anticipation (look-ahead), pour laquelle un décodeur rapide et parallélisé a été implémenté. Espresso atteint des performances de pointe en ASR sur les jeux de données WSJ, LibriSpeech et Switchboard, parmi les systèmes end-to-end, sans recours à des augmentations de données, et se distingue par une vitesse de décodage 4 à 11 fois supérieure à celle de systèmes similaires (par exemple, ESPnet).

Espresso : un outil rapide de reconnaissance neurale automatique de la parole en bout-en-bout | Articles de recherche récents | HyperAI