HyperAIHyperAI

Command Palette

Search for a command to run...

Espresso:高速なエンドツーエンド型ニューラル音声認識ツールキット

Yiming Wang Tongfei Chen Hainan Xu Shuoyang Ding Hang Lv Yiwen Shao Nanyun Peng Lei Xie Shinji Watanabe Sanjeev Khudanpur

概要

本稿では、PyTorchというディープラーニングライブラリおよび人気のあるニューラル機械翻訳ツールキットであるfairseqを基盤として構築された、オープンソースでモジュール化・拡張性に優れたエンドツーエンド型ニューラル音声認識(ASR)ツールキット「Espresso」を紹介する。EspressoはGPUおよび計算ノード間での分散学習をサポートしており、音声認識分野で一般的に用いられる多様なデコーディング手法を備えている。特に、先行語彙ベースの言語モデル融合(look-ahead word-based language model fusion)に対応し、高速かつ並列化されたデコーダーが実装されている。Espressoは、データ拡張を用いない状態で、WSJ、LibriSpeech、Switchboardなどのデータセットにおいて、他のエンドツーエンド型システムと比較して最先端のASR性能を達成しており、類似システム(例:ESPnet)と比較してデコーディング速度が4~11倍速い。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています