6ヶ月前

畳み込みニューラルネットワーク

ディープラーニング

音声および音声処理

アプローチ／フレームワーク

オーディオ

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

概要

近年、深層ニューラルネットワーク（DNN）は音声強調に成功裏に応用されており、DNNを用いた音声強調は魅力的な研究分野として注目を集めている。過去数年間、DNNを用いた音声強調には、短時間フーリエ変換（STFT）に基づく時周波数マスキングが広く用いられてきたが、時間領域手法として時間領域音声分離ネットワーク（TasNet）も提案されている。最も適した手法は、データセットの規模やタスクの種類に依存する。本論文では、異なる2つのデータセット上で最適な音声強調アルゴリズムを検討する。小規模なデータセットにおいて、主観的品質を向上させるために、STFTベースの手法と、問題に依存しない音声エンコーダー（PASE）特徴量を用いた損失関数を提案する。提案手法はVoice Bank + DEMANDデータセットにおいて有効であり、他の最先端手法と比較しても優れた性能を示した。また、TasNetの低遅延版を実装し、DNS Challengeに提出するとともに、オープンソースとして公開した。本モデルはDNS Challengeデータセットにおいて優れた性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

ディープラーニング

音声および音声処理

アプローチ／フレームワーク

オーディオ

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

概要

近年、深層ニューラルネットワーク（DNN）は音声強調に成功裏に応用されており、DNNを用いた音声強調は魅力的な研究分野として注目を集めている。過去数年間、DNNを用いた音声強調には、短時間フーリエ変換（STFT）に基づく時周波数マスキングが広く用いられてきたが、時間領域手法として時間領域音声分離ネットワーク（TasNet）も提案されている。最も適した手法は、データセットの規模やタスクの種類に依存する。本論文では、異なる2つのデータセット上で最適な音声強調アルゴリズムを検討する。小規模なデータセットにおいて、主観的品質を向上させるために、STFTベースの手法と、問題に依存しない音声エンコーダー（PASE）特徴量を用いた損失関数を提案する。提案手法はVoice Bank + DEMANDデータセットにおいて有効であり、他の最先端手法と比較しても優れた性能を示した。また、TasNetの低遅延版を実装し、DNS Challengeに提出するとともに、オープンソースとして公開した。本モデルはDNS Challengeデータセットにおいて優れた性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています