2ヶ月前

SpEx+: 完全な時間領域話者抽出ネットワーク

Meng Ge; Chenglin Xu; Longbiao Wang; Eng Siong Chng; Jianwu Dang; Haizhou Li
SpEx+: 完全な時間領域話者抽出ネットワーク
要約

話者抽出の目的は、複数の話者が存在する環境から目標話者の音声信号を抽出することである。最近、我々は周波数領域アプローチで必要となる位相推定を避ける時間領域ソリューションであるSpExを提案した。しかし、SpExは完全な時間領域ソリューションではなく、話者抽出には時間領域での音声符号化を行う一方で、参照として周波数領域の話者埋め込みを使用している。時間領域と周波数領域入力の解析窓サイズも異なるため、このような不一致がシステム性能に悪影響を与える。このような不一致を解消するために、完全な時間領域の話者抽出ソリーションであるSpEx+を提案する。具体的には、エンコーダー-抽出器-デコーダーのパイプラインと話者エンコーダーの一部として使用される2つの同一の音声エンコーダーネットワークの重みを共有する。実験結果によると、WSJ0-2mix-extrデータベースにおいて、異なる性別および同じ性別の条件下でそれぞれ0.8dBおよび2.1dBのSDR改善が得られ、最先端のSpEx基準よりも優れた性能を示している。(注:「speaker extraction」は「話者抽出」、「reference speech」は「参照音声」、「time-domain solution」は「時間領域ソリューション」、「frequency-domain approaches」は「周波数領域アプローチ」、「phase estimation」は「位相推定」、「speech encoding」は「音声符号化」、「speaker embedding」は「話者埋め込み」と訳しています。)

SpEx+: 完全な時間領域話者抽出ネットワーク | 最新論文 | HyperAI超神経