
要約
本稿では、プリ・コーライパーティ問題(pre-cocktail party problem)におけるモノラル音声分離のエンド・ツー・エンドアプローチとして、TasTas \cite{shi2020speech} の利用を提案する。公開されている WSJ0-5mix データコーパスを用いた実験の結果、SDR(Signal-to-Distortion Ratio)で10.41dBの改善が得られた。また、学習段階でオンライン音声データのリミックス増強法 \cite{zeghidour2020wavesplit} を導入した場合、11.14dBのSDR向上が達成された。本研究で再実装したDPRNN-TasNetのコードは、https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation にてオープンソース化している。本研究で用いたTasTasは、このDPRNN-TasNet実装に基づいて構築されたものであり、本論文の結果は容易に再現可能であると期待される。