6ヶ月前

音声および音声処理

ディープラーニング

オーディオ

Sanjeev Khudanpur Daniel Povey Hossein Sameti Hossein Hadian

概要

本稿では、隠れマルコフモデル（HMM）の文脈において、ラティスフリー最大相互情報量（LF-MMI）目的関数を用いた音響モデルのエンドツーエンド学習に関する研究を報告する。エンドツーエンド学習とは、事前に学習されたモデルや強制アライメント、状態結合意思決定木の構築を一切用いずに、単一の深層ニューラルネットワーク（DNN）を1段階でフラットスタートで学習することを意味する。本研究では、木構造を用いずに文脈依存モデル化を実現するため、フルバイフォン（full biphones）を採用し、エンドツーエンド型のLF-MMIアプローチが、有名な大語彙タスクにおいて従来のLF-MMIと同等の性能を達成できることを示した。また、文字ベースかつ語彙非依存な設定における他のエンドツーエンド手法（例：CTC）と比較し、さまざまな大語彙タスクにおいて、ワードエラーレート（WER）を5～25％相対的に低減する結果を得た。さらに、モデルサイズは著しく小さくても高い性能を達成できることを確認した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

ディープラーニング

オーディオ

Sanjeev Khudanpur Daniel Povey Hossein Sameti Hossein Hadian

概要

本稿では、隠れマルコフモデル（HMM）の文脈において、ラティスフリー最大相互情報量（LF-MMI）目的関数を用いた音響モデルのエンドツーエンド学習に関する研究を報告する。エンドツーエンド学習とは、事前に学習されたモデルや強制アライメント、状態結合意思決定木の構築を一切用いずに、単一の深層ニューラルネットワーク（DNN）を1段階でフラットスタートで学習することを意味する。本研究では、木構造を用いずに文脈依存モデル化を実現するため、フルバイフォン（full biphones）を採用し、エンドツーエンド型のLF-MMIアプローチが、有名な大語彙タスクにおいて従来のLF-MMIと同等の性能を達成できることを示した。また、文字ベースかつ語彙非依存な設定における他のエンドツーエンド手法（例：CTC）と比較し、さまざまな大語彙タスクにおいて、ワードエラーレート（WER）を5～25％相対的に低減する結果を得た。さらに、モデルサイズは著しく小さくても高い性能を達成できることを確認した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています