HyperAIHyperAI

Command Palette

Search for a command to run...

変形可能な時間畳み込みネットワークを用いた単一音声の雑音混在残響音声分離

William Ravenscroft Stefan Goetze Thomas Hain

概要

音声分離モデルは、多くの音声処理アプリケーションにおいて個々の話者を分離するために使用されます。深層学習モデルは、数々の音声分離ベンチマークで最先端(State-of-the-Art: SOTA)の結果を示しています。そのようなモデルの一つとして、時間畳み込みネットワーク(Temporal Convolutional Networks: TCNs)が注目されており、音声分離タスクで有望な結果を示しています。これらのモデルの制限点は、受容野(Receptive Field: RF)が固定されていることです。最近の音響除湿研究では、TCNの最適なRFが音声信号の残響特性に応じて変化することが示されています。本研究では、変形畳み込みを提案し、TCNモデルが様々な残響時間に対応できる動的なRFを持つことを可能にします。提案されたモデルは、WHAMRベンチマークにおいて入力信号に対して平均11.1 dBのスケール不変信号対歪み比(Scale-Invariant Signal-to-Distortion Ratio: SISDR)改善を達成しています。また、比較的小さな1.3Mパラメータを持つ変形TCNモデルが提案され、より大規模で計算量が多いモデルと同等の分離性能を発揮することが確認されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
変形可能な時間畳み込みネットワークを用いた単一音声の雑音混在残響音声分離 | 記事 | HyperAI超神経