HyperAIHyperAI

Command Palette

Search for a command to run...

前カクテルパーティー問題におけるTasTasを用いた音声分離への道標

Ziqiang Shi Jiqing Han

概要

本稿では、プリ・コーライパーティ問題(pre-cocktail party problem)におけるモノラル音声分離のエンド・ツー・エンドアプローチとして、TasTas \cite{shi2020speech} の利用を提案する。公開されている WSJ0-5mix データコーパスを用いた実験の結果、SDR(Signal-to-Distortion Ratio)で10.41dBの改善が得られた。また、学習段階でオンライン音声データのリミックス増強法 \cite{zeghidour2020wavesplit} を導入した場合、11.14dBのSDR向上が達成された。本研究で再実装したDPRNN-TasNetのコードは、https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation にてオープンソース化している。本研究で用いたTasTasは、このDPRNN-TasNet実装に基づいて構築されたものであり、本論文の結果は容易に再現可能であると期待される。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています