8ヶ月前

音声および音声処理

拡散モデル

アプローチ／フレームワーク

オーディオ

Ante Jukić Roman Korostik Jagadeesh Balam Boris Ginsburg

概要

本論文では、シュレディンガー橋（Schrödinger bridge, SB）を基にした生成音声強化モデルを提案する。提案されたモデルは、扱いやすいSBを用いて、クリーン音声分布と観測されたノイジーデータの分布間のデータ間プロセスを定式化している。このモデルはデータ予測損失で訓練され、複素数値のクリーン音声係数の回復を目指しており、補助的な時間領域損失が用いられてモデルの訓練が改善される。提案されたSBベースのモデルの有効性は、2つの異なる音声強化タスクである音声除燥と音響除混響において評価された。実験結果は、提案されたSBベースのモデルが拡散モデルよりも音質指標や自動音声認識（ASR）性能において優れていることを示しており、例えば最良のベースラインモデルと比較して除燥では相対的な単語誤り率が20%減少し、除混響では6%減少した。また、提案されたモデルは効率性も向上しており、同じサンプリングステップ数でより高い品質を達成し、計算コストも削減されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

拡散モデル

アプローチ／フレームワーク

オーディオ

Ante Jukić Roman Korostik Jagadeesh Balam Boris Ginsburg

概要

本論文では、シュレディンガー橋（Schrödinger bridge, SB）を基にした生成音声強化モデルを提案する。提案されたモデルは、扱いやすいSBを用いて、クリーン音声分布と観測されたノイジーデータの分布間のデータ間プロセスを定式化している。このモデルはデータ予測損失で訓練され、複素数値のクリーン音声係数の回復を目指しており、補助的な時間領域損失が用いられてモデルの訓練が改善される。提案されたSBベースのモデルの有効性は、2つの異なる音声強化タスクである音声除燥と音響除混響において評価された。実験結果は、提案されたSBベースのモデルが拡散モデルよりも音質指標や自動音声認識（ASR）性能において優れていることを示しており、例えば最良のベースラインモデルと比較して除燥では相対的な単語誤り率が20%減少し、除混響では6%減少した。また、提案されたモデルは効率性も向上しており、同じサンプリングステップ数でより高い品質を達成し、計算コストも削減されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Schrödinger Bridgeを用いた生成音声強化 | 記事 | HyperAI超神経