Espresso: Ein schnelles end-to-end neuronales Spracherkennungstoolkit

Wir präsentieren Espresso, ein quelloffenes, modulares und erweiterbares end-to-end-Neurales Automatisches Spracherkennungssystem (ASR), das auf der Deep-Learning-Bibliothek PyTorch und dem populären neuronalen Maschinübersetzungs-Toolkit fairseq basiert. Espresso unterstützt verteiltes Training über GPUs und Rechenknoten und verfügt über verschiedene Dekodieransätze, die in der ASR üblich sind, darunter die Vorwärts-Schau-Wort-basierte Sprachmodellfusion, für die ein schneller, paralleler Dekoder implementiert wurde. Espresso erreicht unter den end-to-end-Systemen Spitzenleistungen bei den Datensätzen WSJ, LibriSpeech und Switchboard – ohne Datenverstärkung – und ist bei der Dekodierung 4 bis 11 Mal schneller als vergleichbare Systeme (z. B. ESPnet).