17일 전

에스프레소: 빠른 엔드투엔드 신경망 음성 인식 툴킷

Yiming Wang, Tongfei Chen, Hainan Xu, Shuoyang Ding, Hang Lv, Yiwen Shao, Nanyun Peng, Lei Xie, Shinji Watanabe, Sanjeev Khudanpur
에스프레소: 빠른 엔드투엔드 신경망 음성 인식 툴킷
초록

우리는 딥러닝 라이브러리 PyTorch와 인기 있는 신경망 기반 기계 번역 툴킷 fairseq를 기반으로 한 오픈소스이며 모듈화되고 확장 가능한 엔드투엔드 신경망 음성인식(ASR) 툴킷인 Espresso를 소개한다. Espresso는 GPU 및 계산 노드 간 분산 학습을 지원하며, 음성인식에서 흔히 사용되는 다양한 디코딩 방법을 제공한다. 특히, 앞서 보는 단어 기반 언어 모델 융합(look-ahead word-based language model fusion)을 위한 고속이고 병렬화된 디코더를 구현하였다. Espresso는 데이터 증강 없이도 WSJ, LibriSpeech, Switchboard 등의 데이터셋에서 다른 엔드투엔드 시스템들 중에서 최고 수준의 ASR 성능을 달성하였으며, 유사한 시스템(예: ESPnet)에 비해 디코딩 속도가 4~11배 빠르다.