8ヶ月前

音声および音声処理

ディープラーニング

オーディオ

Liang Lu Lingpeng Kong Chris Dyer Noah A. Smith Steve Renals

概要

私たちは、エンドツーエンドの音響モデリングに用いられるセグメンタル再帰型ニューラルネットワーク（RNN）について研究しています。このモデルは、セグメンタル条件付き確率場（CRF）と特徴抽出に使用される再帰型ニューラルネットワークを接続しています。これまでのほとんどのCRFベースの音響モデルと比較して、外部システムによる特徴量やセグメンテーション境界の提供に依存していません。代わりに、このモデルはすべての可能なセグメンテーションを周辺化し、特徴量はセグメンタルCRFとともに訓練されたRNNから抽出されます。本質的には、このモデルは自立しており、エンドツーエンドで訓練することができます。本論文では、実際の訓練とデコーディングに関する問題点や、音声認識の文脈における訓練速度向上の方法について議論します。TIMITデータセットを用いて実験を行い、最初のデコーディングで17.3%の音素誤り率（PER）を達成しました---言語モデルを使用せずに0次CRFのみを使用した場合でも、報告されているCRFを使用した結果の中で最良のものです。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

ディープラーニング

オーディオ

Liang Lu Lingpeng Kong Chris Dyer Noah A. Smith Steve Renals

概要

私たちは、エンドツーエンドの音響モデリングに用いられるセグメンタル再帰型ニューラルネットワーク（RNN）について研究しています。このモデルは、セグメンタル条件付き確率場（CRF）と特徴抽出に使用される再帰型ニューラルネットワークを接続しています。これまでのほとんどのCRFベースの音響モデルと比較して、外部システムによる特徴量やセグメンテーション境界の提供に依存していません。代わりに、このモデルはすべての可能なセグメンテーションを周辺化し、特徴量はセグメンタルCRFとともに訓練されたRNNから抽出されます。本質的には、このモデルは自立しており、エンドツーエンドで訓練することができます。本論文では、実際の訓練とデコーディングに関する問題点や、音声認識の文脈における訓練速度向上の方法について議論します。TIMITデータセットを用いて実験を行い、最初のデコーディングで17.3%の音素誤り率（PER）を達成しました---言語モデルを使用せずに0次CRFのみを使用した場合でも、報告されているCRFを使用した結果の中で最良のものです。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています