HyperAI

概要

本稿では、プリ・コーライパーティ問題（pre-cocktail party problem）におけるモノラル音声分離のエンド・ツー・エンドアプローチとして、TasTas \cite{shi2020speech} の利用を提案する。公開されている WSJ0-5mix データコーパスを用いた実験の結果、SDR（Signal-to-Distortion Ratio）で10.41dBの改善が得られた。また、学習段階でオンライン音声データのリミックス増強法 \cite{zeghidour2020wavesplit} を導入した場合、11.14dBのSDR向上が達成された。本研究で再実装したDPRNN-TasNetのコードは、https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation にてオープンソース化している。本研究で用いたTasTasは、このDPRNN-TasNet実装に基づいて構築されたものであり、本論文の結果は容易に再現可能であると期待される。

概要

Ziqiang Shi Jiqing Han

概要

AIでAIを構築

HyperAI Newsletters

Ziqiang Shi Jiqing Han

概要

AIでAIを構築

HyperAI Newsletters

Ziqiang Shi Jiqing Han

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

前カクテルパーティー問題におけるTasTasを用いた音声分離への道標

Ziqiang Shi Jiqing Han

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

前カクテルパーティー問題におけるTasTasを用いた音声分離への道標

Ziqiang Shi Jiqing Han

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

前カクテルパーティー問題におけるTasTasを用いた音声分離への道標

Ziqiang Shi Jiqing Han

概要

AIでAIを構築

HyperAI Newsletters