HyperAIHyperAI

Command Palette

Search for a command to run...

DNNベースの低遅延音声増強における時系列畳み込みネットワークを用いた最適な損失関数の探求

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

概要

近年、深層ニューラルネットワーク(DNN)は音声強調に成功裏に応用されており、DNNを用いた音声強調は魅力的な研究分野として注目を集めている。過去数年間、DNNを用いた音声強調には、短時間フーリエ変換(STFT)に基づく時周波数マスキングが広く用いられてきたが、時間領域手法として時間領域音声分離ネットワーク(TasNet)も提案されている。最も適した手法は、データセットの規模やタスクの種類に依存する。本論文では、異なる2つのデータセット上で最適な音声強調アルゴリズムを検討する。小規模なデータセットにおいて、主観的品質を向上させるために、STFTベースの手法と、問題に依存しない音声エンコーダー(PASE)特徴量を用いた損失関数を提案する。提案手法はVoice Bank + DEMANDデータセットにおいて有効であり、他の最先端手法と比較しても優れた性能を示した。また、TasNetの低遅延版を実装し、DNS Challengeに提出するとともに、オープンソースとして公開した。本モデルはDNS Challengeデータセットにおいて優れた性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています