HyperAIHyperAI
vor 17 Tagen

Espresso: Ein schnelles end-to-end neuronales Spracherkennungstoolkit

Yiming Wang, Tongfei Chen, Hainan Xu, Shuoyang Ding, Hang Lv, Yiwen Shao, Nanyun Peng, Lei Xie, Shinji Watanabe, Sanjeev Khudanpur
Espresso: Ein schnelles end-to-end neuronales Spracherkennungstoolkit
Abstract

Wir präsentieren Espresso, ein quelloffenes, modulares und erweiterbares end-to-end-Neurales Automatisches Spracherkennungssystem (ASR), das auf der Deep-Learning-Bibliothek PyTorch und dem populären neuronalen Maschinübersetzungs-Toolkit fairseq basiert. Espresso unterstützt verteiltes Training über GPUs und Rechenknoten und verfügt über verschiedene Dekodieransätze, die in der ASR üblich sind, darunter die Vorwärts-Schau-Wort-basierte Sprachmodellfusion, für die ein schneller, paralleler Dekoder implementiert wurde. Espresso erreicht unter den end-to-end-Systemen Spitzenleistungen bei den Datensätzen WSJ, LibriSpeech und Switchboard – ohne Datenverstärkung – und ist bei der Dekodierung 4 bis 11 Mal schneller als vergleichbare Systeme (z. B. ESPnet).