6ヶ月前

音声および音声処理

自然言語処理

アプローチ／フレームワーク

自然言語処理

オーディオ

Albert Zeyer André Merboldt Wilfried Michel Ralf Schlüter Hermann Ney

概要

我々はLibrispeech上でトランシーダーモデルを提示する。本研究では、外部言語モデル（LM）をシャロウフュージョンにより組み込むバリエーションを検討し、推定された内部言語モデルを差し引く手法を提案する。これは、トランシーダーモデルの事前確率が推定された内部言語モデルによって与えられるベイズ的解釈に基づくものである。内部言語モデルを差し引くことで、従来のシャロウフュージョンに比べて相対的に14％以上の性能向上が達成される。本トランシーダーは、非ブランクラベルに対して独立した確率分布を採用しており、これにより外部言語モデルとの組み合わせが容易になり、内部言語モデルの推定もより簡便になる。さらに、最後のブランク確率に外部言語モデルの文末（EOS）確率を適切に組み込む処理を実施することで、性能のさらなる向上が得られる。本研究で用いたすべてのコードおよび設定は公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

自然言語処理

アプローチ／フレームワーク

自然言語処理

オーディオ

Albert Zeyer André Merboldt Wilfried Michel Ralf Schlüter Hermann Ney

概要

我々はLibrispeech上でトランシーダーモデルを提示する。本研究では、外部言語モデル（LM）をシャロウフュージョンにより組み込むバリエーションを検討し、推定された内部言語モデルを差し引く手法を提案する。これは、トランシーダーモデルの事前確率が推定された内部言語モデルによって与えられるベイズ的解釈に基づくものである。内部言語モデルを差し引くことで、従来のシャロウフュージョンに比べて相対的に14％以上の性能向上が達成される。本トランシーダーは、非ブランクラベルに対して独立した確率分布を採用しており、これにより外部言語モデルとの組み合わせが容易になり、内部言語モデルの推定もより簡便になる。さらに、最後のブランク確率に外部言語モデルの文末（EOS）確率を適切に組み込む処理を実施することで、性能のさらなる向上が得られる。本研究で用いたすべてのコードおよび設定は公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています