17日前
TS-SEP:推定された話者埋め込みに条件付けられた同時話者分離と分類
Christoph Boeddeker, Aswin Shanmugam Subramanian, Gordon Wichern, Reinhold Haeb-Umbach, Jonathan Le Roux

要約
会議データにおける話者分離(diarization)と音源分離(source separation)は密接に関連するタスクであるため、本研究では両者の同時実現を目的とした手法を提案する。本手法は、初期の話者埋め込み(speaker embeddings)が事前に利用可能であることを仮定する、ターゲット話者音声活動検出(TS-VAD)に基づくアプローチを踏襲している。TS-VADの最終段階における結合話者活動推定ネットワークを、時間周波数解像度での話者活動推定を出力するネットワークに置き換える。この推定結果は、マスキングまたはビームフォーミングを用いた音源抽出に用いるマスクとして機能する。本手法は単一チャネル入力および多チャネル入力の両方に対応可能であり、いずれの場合もLibriCSS会議データ認識タスクにおいて、新たな最先端の単語誤り率(WER)を達成した。さらに、話者に依存する(speaker-aware)および話者に依存しない(speaker-agnostic)WERを別々に算出することで、全体のWER性能に及ぼす分離誤りの寄与を明確に分離・評価している。