6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Binbin Zhang Di Wu Zhuoyuan Yao Xiong Wang Fan Yu Chao Yang Liyong Guo Yaguang Hu Lei Xie Xin Lei

概要

本稿では、一つのモデル内でストリーミング型と非ストリーミング型のエンドツーエンド（E2E）音声認識を統合するための新規な二段階アプローチを提案する。本モデルは、エンコーダにおけるコンフォーマー層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。また、任意の右側文脈長を許容するため、動的チャンクベースのアテンション戦略を提案する。推論時において、CTCデコーダはストリーミング方式でn-best仮説を生成する。この際、チャンクサイズを変更するだけで推論遅延を簡単に制御できる。その後、生成されたCTC仮説はアテンションデコーダによって再スコアリングされ、最終的な出力を得る。この効率的な再スコアリングプロセスは、文単位の遅延をほとんど引き起こさない。公開170時間分のAISHELL-1データセットを用いた実験の結果、提案手法はストリーミング型と非ストリーミング型モデルを単純かつ効率的に統合できることを示した。AISHELL-1テストセットにおいて、標準的な非ストリーミングTransformerモデルと比較して、非ストリーミングASRにおいて5.60％の相対的文字誤字率（CER）低減を達成した。また、同一モデルはストリーミングASRシステムにおいて640msの遅延で5.42％のCERを実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Binbin Zhang Di Wu Zhuoyuan Yao Xiong Wang Fan Yu Chao Yang Liyong Guo Yaguang Hu Lei Xie Xin Lei

概要

本稿では、一つのモデル内でストリーミング型と非ストリーミング型のエンドツーエンド（E2E）音声認識を統合するための新規な二段階アプローチを提案する。本モデルは、エンコーダにおけるコンフォーマー層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。また、任意の右側文脈長を許容するため、動的チャンクベースのアテンション戦略を提案する。推論時において、CTCデコーダはストリーミング方式でn-best仮説を生成する。この際、チャンクサイズを変更するだけで推論遅延を簡単に制御できる。その後、生成されたCTC仮説はアテンションデコーダによって再スコアリングされ、最終的な出力を得る。この効率的な再スコアリングプロセスは、文単位の遅延をほとんど引き起こさない。公開170時間分のAISHELL-1データセットを用いた実験の結果、提案手法はストリーミング型と非ストリーミング型モデルを単純かつ効率的に統合できることを示した。AISHELL-1テストセットにおいて、標準的な非ストリーミングTransformerモデルと比較して、非ストリーミングASRにおいて5.60％の相対的文字誤字率（CER）低減を達成した。また、同一モデルはストリーミングASRシステムにおいて640msの遅延で5.42％のCERを実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています