17日前

Espresso:高速なエンドツーエンド型ニューラル音声認識ツールキット

Yiming Wang, Tongfei Chen, Hainan Xu, Shuoyang Ding, Hang Lv, Yiwen Shao, Nanyun Peng, Lei Xie, Shinji Watanabe, Sanjeev Khudanpur
Espresso:高速なエンドツーエンド型ニューラル音声認識ツールキット
要約

本稿では、PyTorchというディープラーニングライブラリおよび人気のあるニューラル機械翻訳ツールキットであるfairseqを基盤として構築された、オープンソースでモジュール化・拡張性に優れたエンドツーエンド型ニューラル音声認識(ASR)ツールキット「Espresso」を紹介する。EspressoはGPUおよび計算ノード間での分散学習をサポートしており、音声認識分野で一般的に用いられる多様なデコーディング手法を備えている。特に、先行語彙ベースの言語モデル融合(look-ahead word-based language model fusion)に対応し、高速かつ並列化されたデコーダーが実装されている。Espressoは、データ拡張を用いない状態で、WSJ、LibriSpeech、Switchboardなどのデータセットにおいて、他のエンドツーエンド型システムと比較して最先端のASR性能を達成しており、類似システム(例:ESPnet)と比較してデコーディング速度が4~11倍速い。

Espresso:高速なエンドツーエンド型ニューラル音声認識ツールキット | 最新論文 | HyperAI超神経