2ヶ月前

LSTMを用いた話者ダイアリゼーション

Quan Wang; Carlton Downey; Li Wan; Philip Andrew Mansfield; Ignacio Lopez Moreno
LSTMを用いた話者ダイアリゼーション
要約

長年にわたり、i-ベクトルに基づく音声埋め込み技術は、話者認証や話者分離(speaker diarization)のアプリケーションにおいて主流のアプローチでした。しかし、深層学習が様々な分野で急速に発展するのと同様に、ニューラルネットワークに基づく音声埋め込み技術、いわゆるd-ベクトルも、一貫して優れた話者認証性能を示しています。本論文では、d-ベクトルに基づく話者認証システムの成功を基に、新たなd-ベクトルに基づく話者分離手法を開発します。具体的には、LSTM(Long Short-Term Memory)ベースのd-ベクトル音声埋め込みと最近の非パラメトリッククラスタリングに関する研究を組み合わせて、最先端の話者分離システムを構築しました。当システムは3つの標準的な公開データセットで評価され、d-ベクトルに基づく分離システムが従来のi-ベクトルに基づくシステムに対して著しい利点があることが示唆されました。NIST SRE 2000 CALLHOMEデータセットでの評価では12.0%の話者分離誤り率を達成し、モデルはボイスサーチログからのドメイン外データで学習されています。

LSTMを用いた話者ダイアリゼーション | 最新論文 | HyperAI超神経