HyperAIHyperAI

Command Palette

Search for a command to run...

Wave-U-Net を用いた音声強化の改善

Craig Macartney; Tillman Weyde

概要

私たちは、音声強化にWave-U-Netアーキテクチャを使用することを研究しています。これはStollerらによって音楽のボーカルと伴奏の分離のために導入されたモデルです。このエンドツーエンド学習手法は、直接時間領域で動作し、位相情報の統合モデリングを可能にするとともに、大きな時間的なコンテキストを考慮に入れることができます。私たちの実験では、提案手法がVoice Bankコーパス(VCTK)データセットにおける音声強化タスクにおいて、PESQ、CSIG、CBAK、COVLおよびSSNRなどの複数の指標で最先端技術を超えることを示しています。歌唱ボイス分離向けに設計された元のシステムと比較して、音声強化には少ない数の隠れ層でも十分であることがわかりました。この初期結果は、時間領域での音声強化をさらに探求するための励みとなるものであり、音声認識システムの前処理ステップとしても有用であると考えています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています