6ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

概要

音声強調は、背景ノイズの種類の多様性により、困難な課題である。既存の大多数の手法は、音声のモデル化に注力しているが、ノイズのモデル化にはあまり注目が集まっていない。本論文では、二本の分岐を持つ畳み込みニューラルネットワークを用いて、音声とノイズを同時にモデル化する新しいアプローチ、すなわちSN-Netを提案する。SN-Netでは、二つの分岐がそれぞれ音声とノイズを予測する。最終出力層でのみ情報の統合を行うのではなく、二つの分岐間の複数の中間特徴領域に相互作用モジュールを導入することで、双方が互いに補完し合うように設計されている。この相互作用により、一方の分岐から学習された特徴を活用して、他方の分岐における望ましくない成分を抑制し、欠落した成分を復元することが可能となり、結果として両者の識別能力が向上する。また、音声およびノイズの時間的・周波数的次元における相関を捉えるため、残差畳み込みと注意機構を組み合わせた特徴抽出モジュール（RA）を新たに設計した。公開データセットを用いた評価において、相互作用モジュールが同時モデル化において重要な役割を果たしていることが確認され、SN-Netは各種評価指標において最先端手法を大きく上回る性能を示した。さらに、本手法は話者分離タスクにおいても優れた性能を発揮している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

畳み込みニューラルネットワーク

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

概要

音声強調は、背景ノイズの種類の多様性により、困難な課題である。既存の大多数の手法は、音声のモデル化に注力しているが、ノイズのモデル化にはあまり注目が集まっていない。本論文では、二本の分岐を持つ畳み込みニューラルネットワークを用いて、音声とノイズを同時にモデル化する新しいアプローチ、すなわちSN-Netを提案する。SN-Netでは、二つの分岐がそれぞれ音声とノイズを予測する。最終出力層でのみ情報の統合を行うのではなく、二つの分岐間の複数の中間特徴領域に相互作用モジュールを導入することで、双方が互いに補完し合うように設計されている。この相互作用により、一方の分岐から学習された特徴を活用して、他方の分岐における望ましくない成分を抑制し、欠落した成分を復元することが可能となり、結果として両者の識別能力が向上する。また、音声およびノイズの時間的・周波数的次元における相関を捉えるため、残差畳み込みと注意機構を組み合わせた特徴抽出モジュール（RA）を新たに設計した。公開データセットを用いた評価において、相互作用モジュールが同時モデル化において重要な役割を果たしていることが確認され、SN-Netは各種評価指標において最先端手法を大きく上回る性能を示した。さらに、本手法は話者分離タスクにおいても優れた性能を発揮している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

音声強調のためのインタラクティブな音声およびノイズモデリング | 記事 | HyperAI超神経