6ヶ月前

音声および音声処理

マルチタスク学習

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

Hyeong-Seok Choi Hoon Heo Jie Hwan Lee Kyogu Lee

概要

本研究では、単一段階フレームワークを用いたノイズ除去および残響除去問題に取り組む。ノイズ除去と残響除去はそれぞれ難易度の高い独立したタスクと見なされることが多く、通常は各タスクに別々のモジュールを設けるが、本研究では、これらの二つの問題を一つの深層ネットワークで同時に解決可能であることを示す。そのために、複素数領域における混合信号、音源信号、および残余成分の三つの信号成分間の三角不等式を考慮しつつ、推定された振幅値を再利用してクリーンな位相を推定する、新たなマスク法「位相感知型ベータシグモイドマスク（PHM）」を提案する。直接音源と残響音源のそれぞれに対し、2つのPHMを用いることで、推論時に強化音声における残響の割合を柔軟に制御することが可能となる。さらに、音声強調性能の向上を図るため、新しい時間領域損失関数を提案し、複素数領域におけるMSE損失と比較して有意な性能向上を示す。最後に、リアルタイム推論の実現を目指し、U-Netに対する最適化戦略を提示する。これにより、従来のナイーブな実装と比較して、計算負荷を最大88.9％まで大幅に削減することが可能となる。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

Hyeong-Seok Choi Hoon Heo Jie Hwan Lee Kyogu Lee

概要

本研究では、単一段階フレームワークを用いたノイズ除去および残響除去問題に取り組む。ノイズ除去と残響除去はそれぞれ難易度の高い独立したタスクと見なされることが多く、通常は各タスクに別々のモジュールを設けるが、本研究では、これらの二つの問題を一つの深層ネットワークで同時に解決可能であることを示す。そのために、複素数領域における混合信号、音源信号、および残余成分の三つの信号成分間の三角不等式を考慮しつつ、推定された振幅値を再利用してクリーンな位相を推定する、新たなマスク法「位相感知型ベータシグモイドマスク（PHM）」を提案する。直接音源と残響音源のそれぞれに対し、2つのPHMを用いることで、推論時に強化音声における残響の割合を柔軟に制御することが可能となる。さらに、音声強調性能の向上を図るため、新しい時間領域損失関数を提案し、複素数領域におけるMSE損失と比較して有意な性能向上を示す。最後に、リアルタイム推論の実現を目指し、U-Netに対する最適化戦略を提示する。これにより、従来のナイーブな実装と比較して、計算負荷を最大88.9％まで大幅に削減することが可能となる。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

フェーズに応じたシングルステージ音声ノイズ除去およびリバーバーメーション：U-Netを用いた手法 | 記事 | HyperAI超神経