17日前

前カクテルパーティー問題におけるTasTasを用いた音声分離への道標

Ziqiang Shi, Jiqing Han
前カクテルパーティー問題におけるTasTasを用いた音声分離への道標
要約

本稿では、プリ・コーライパーティ問題(pre-cocktail party problem)におけるモノラル音声分離のエンド・ツー・エンドアプローチとして、TasTas \cite{shi2020speech} の利用を提案する。公開されている WSJ0-5mix データコーパスを用いた実験の結果、SDR(Signal-to-Distortion Ratio)で10.41dBの改善が得られた。また、学習段階でオンライン音声データのリミックス増強法 \cite{zeghidour2020wavesplit} を導入した場合、11.14dBのSDR向上が達成された。本研究で再実装したDPRNN-TasNetのコードは、https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation にてオープンソース化している。本研究で用いたTasTasは、このDPRNN-TasNet実装に基づいて構築されたものであり、本論文の結果は容易に再現可能であると期待される。

前カクテルパーティー問題におけるTasTasを用いた音声分離への道標 | 最新論文 | HyperAI超神経