HyperAIHyperAI

Command Palette

Search for a command to run...

LSTMを用いた話者ダイアリゼーション

Author1 Author2

概要

長年にわたり、i-ベクトルに基づく音声埋め込み技術は、話者認証や話者分離(speaker diarization)のアプリケーションにおいて主流のアプローチでした。しかし、深層学習が様々な分野で急速に発展するのと同様に、ニューラルネットワークに基づく音声埋め込み技術、いわゆるd-ベクトルも、一貫して優れた話者認証性能を示しています。本論文では、d-ベクトルに基づく話者認証システムの成功を基に、新たなd-ベクトルに基づく話者分離手法を開発します。具体的には、LSTM(Long Short-Term Memory)ベースのd-ベクトル音声埋め込みと最近の非パラメトリッククラスタリングに関する研究を組み合わせて、最先端の話者分離システムを構築しました。当システムは3つの標準的な公開データセットで評価され、d-ベクトルに基づく分離システムが従来のi-ベクトルに基づくシステムに対して著しい利点があることが示唆されました。NIST SRE 2000 CALLHOMEデータセットでの評価では12.0%の話者分離誤り率を達成し、モデルはボイスサーチログからのドメイン外データで学習されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LSTMを用いた話者ダイアリゼーション | 記事 | HyperAI超神経