HyperAIHyperAI

Command Palette

Search for a command to run...

マルチデコーダDPRNN:高精度な音源数推定と分離

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

概要

本稿では、話者数が未知の単一チャネル音声分離を対象としたエンド・トゥ・エンドで学習可能なアプローチを提案する。本手法は、MulCat音声分離のベースラインモデルに、話者数を推定する「カウントヘッド」と、元の信号を再構成するための「デコーダヘッド」を追加することで拡張している。モデルの構成に加え、話者数が可変である状況下での音声分離の評価方法に関する新しい指標も提案する。特に、モデルの予測結果と真値(ground-truth)の話者数が一致しない場合(過剰または不足)における評価品質の定義について明確化した。我々の手法は、最大5人の話者を含むWSJ0-mixデータセット上で評価され、話者数の推定性能において最先端の手法を上回りつつ、再構成信号の品質においても競争力を持つことを実証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
マルチデコーダDPRNN:高精度な音源数推定と分離 | 記事 | HyperAI超神経