6ヶ月前

音声および音声処理

マルチタスク学習

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

Tyler Vuong Yangyang Xia Richard M. Stern

概要

深層学習に基づく音声強調システム向けに、変調領域における損失関数を提案する。学習可能なスペクトロ時空間受容場（STRF）を用いて、話者識別タスクに最適化するように調整した。得られた学習済みSTRFを用いて、音声強調システムの学習に向けた変調領域における重み付き平均二乗誤差（MSE）を計算した。実験の結果、スペクトロ時空間領域におけるMSEに加えて変調領域におけるMSEを導入することで、リアルタイム音声強調システムにおける音声品質および話音明瞭度の客観的予測性能が顕著に向上したが、推論時に追加の計算負荷を発生させることなく実現された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ニューラルネットワークを用いたリアルタイム音声強調における変調領域損失 | 記事 | HyperAI超神経