15日前

マルチデコーダDPRNN:高精度な音源数推定と分離

Junzhe Zhu, Raymond Yeh, Mark Hasegawa-Johnson
マルチデコーダDPRNN:高精度な音源数推定と分離
要約

本稿では、話者数が未知の単一チャネル音声分離を対象としたエンド・トゥ・エンドで学習可能なアプローチを提案する。本手法は、MulCat音声分離のベースラインモデルに、話者数を推定する「カウントヘッド」と、元の信号を再構成するための「デコーダヘッド」を追加することで拡張している。モデルの構成に加え、話者数が可変である状況下での音声分離の評価方法に関する新しい指標も提案する。特に、モデルの予測結果と真値(ground-truth)の話者数が一致しない場合(過剰または不足)における評価品質の定義について明確化した。我々の手法は、最大5人の話者を含むWSJ0-mixデータセット上で評価され、話者数の推定性能において最先端の手法を上回りつつ、再構成信号の品質においても競争力を持つことを実証した。

マルチデコーダDPRNN:高精度な音源数推定と分離 | 最新論文 | HyperAI超神経