7ヶ月前

音声および音声処理

マルチタスク学習

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

and Ying Hu Yadong Chen Wenbing Wei Liusong Wang

概要

複雑な音響環境下における単一チャネル混合音声の同時ノイズ除去および残響除去は、極めて挑戦的な課題とされている。本論文では、異なる粒度の特徴を抽出し、選択的に統合するための二本枝エンコーダ（Two-branch Encoder, TBE）を設計した、ノイズ除去および残響除去ネットワークであるD²Netを提案する。さらに、局所的な情報の把握を向上させるために、局所的密集合成注意（Local Dense Synthesizer Attention, LDSA）を導入したグローバル-ローカル二パス変換器（Global-Local Dual-Path Transformer, GLDPT）を設計した。提案手法D²Netは、VoiceBank+DEMANDおよびWHAMR!データセット上で評価され、アブレーションスタディが実施された。また、WHAMR!データセット内の3種類のデータを用いて、ノイズ除去のみ、残響除去のみ、および同時ノイズ除去・残響除去の各タスクにおけるD²Netの性能を検証した。実験結果から、提案モデルは比較対象モデルを上回る性能を示し、同時ノイズ除去・残響除去、残響除去のみ、ノイズ除去のみの各タスクにおいて、いずれも優れた性能を達成している一方で、ネットワークパラメータ数を極めて少ない状態で維持していることが明らかになった。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

音声および音声処理

マルチタスク学習

畳み込みニューラルネットワーク

アプローチ／フレームワーク

オーディオ

and Ying Hu Yadong Chen Wenbing Wei Liusong Wang

概要

複雑な音響環境下における単一チャネル混合音声の同時ノイズ除去および残響除去は、極めて挑戦的な課題とされている。本論文では、異なる粒度の特徴を抽出し、選択的に統合するための二本枝エンコーダ（Two-branch Encoder, TBE）を設計した、ノイズ除去および残響除去ネットワークであるD²Netを提案する。さらに、局所的な情報の把握を向上させるために、局所的密集合成注意（Local Dense Synthesizer Attention, LDSA）を導入したグローバル-ローカル二パス変換器（Global-Local Dual-Path Transformer, GLDPT）を設計した。提案手法D²Netは、VoiceBank+DEMANDおよびWHAMR!データセット上で評価され、アブレーションスタディが実施された。また、WHAMR!データセット内の3種類のデータを用いて、ノイズ除去のみ、残響除去のみ、および同時ノイズ除去・残響除去の各タスクにおけるD²Netの性能を検証した。実験結果から、提案モデルは比較対象モデルを上回る性能を示し、同時ノイズ除去・残響除去、残響除去のみ、ノイズ除去のみの各タスクにおいて、いずれも優れた性能を達成している一方で、ネットワークパラメータ数を極めて少ない状態で維持していることが明らかになった。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています