HyperAIHyperAI

Command Palette

Search for a command to run...

TS-SEP:推定された話者埋め込みに条件付けられた同時話者分離と分類

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

概要

会議データにおける話者分離(diarization)と音源分離(source separation)は密接に関連するタスクであるため、本研究では両者の同時実現を目的とした手法を提案する。本手法は、初期の話者埋め込み(speaker embeddings)が事前に利用可能であることを仮定する、ターゲット話者音声活動検出(TS-VAD)に基づくアプローチを踏襲している。TS-VADの最終段階における結合話者活動推定ネットワークを、時間周波数解像度での話者活動推定を出力するネットワークに置き換える。この推定結果は、マスキングまたはビームフォーミングを用いた音源抽出に用いるマスクとして機能する。本手法は単一チャネル入力および多チャネル入力の両方に対応可能であり、いずれの場合もLibriCSS会議データ認識タスクにおいて、新たな最先端の単語誤り率(WER)を達成した。さらに、話者に依存する(speaker-aware)および話者に依存しない(speaker-agnostic)WERを別々に算出することで、全体のWER性能に及ぼす分離誤りの寄与を明確に分離・評価している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TS-SEP:推定された話者埋め込みに条件付けられた同時話者分離と分類 | 記事 | HyperAI超神経