17일 전
에스프레소: 빠른 엔드투엔드 신경망 음성 인식 툴킷
Yiming Wang, Tongfei Chen, Hainan Xu, Shuoyang Ding, Hang Lv, Yiwen Shao, Nanyun Peng, Lei Xie, Shinji Watanabe, Sanjeev Khudanpur

초록
우리는 딥러닝 라이브러리 PyTorch와 인기 있는 신경망 기반 기계 번역 툴킷 fairseq를 기반으로 한 오픈소스이며 모듈화되고 확장 가능한 엔드투엔드 신경망 음성인식(ASR) 툴킷인 Espresso를 소개한다. Espresso는 GPU 및 계산 노드 간 분산 학습을 지원하며, 음성인식에서 흔히 사용되는 다양한 디코딩 방법을 제공한다. 특히, 앞서 보는 단어 기반 언어 모델 융합(look-ahead word-based language model fusion)을 위한 고속이고 병렬화된 디코더를 구현하였다. Espresso는 데이터 증강 없이도 WSJ, LibriSpeech, Switchboard 등의 데이터셋에서 다른 엔드투엔드 시스템들 중에서 최고 수준의 ASR 성능을 달성하였으며, 유사한 시스템(예: ESPnet)에 비해 디코딩 속도가 4~11배 빠르다.