7ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

概要

本論文では、完全監督型話者ダイアリゼーション手法として、無限交互状態再帰ニューラルネットワーク（Unbounded Interleaved-State Recurrent Neural Networks: UIS-RNN）を提案します。入力発話から抽出された話者識別埋め込み（いわゆる d-ベクトル）を用いて、各個別の話者はパラメータ共有型RNNによってモデル化され、異なる話者のRNN状態は時間領域で交互に配置されます。このRNNは、未知数の話者に対応するため、距離依存的なチャイニーズレストランプロセス（distance-dependent Chinese Restaurant Process: ddCRP）と自然に統合されています。当システムは完全監督型であり、タイムスタンプ付きの話者ラベルが注釈された例から学習することが可能です。NIST SRE 2000 CALLHOMEにおいて、7.6%のダイアリゼーション誤り率を達成しました。これはスペクトラルクラスタリングを使用した最先端の手法よりも優れています。さらに、当手法はオンラインデコーディングが可能であるのに対し、多くの最先端システムはオフラインクラスタリングに依存しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

概要

本論文では、完全監督型話者ダイアリゼーション手法として、無限交互状態再帰ニューラルネットワーク（Unbounded Interleaved-State Recurrent Neural Networks: UIS-RNN）を提案します。入力発話から抽出された話者識別埋め込み（いわゆる d-ベクトル）を用いて、各個別の話者はパラメータ共有型RNNによってモデル化され、異なる話者のRNN状態は時間領域で交互に配置されます。このRNNは、未知数の話者に対応するため、距離依存的なチャイニーズレストランプロセス（distance-dependent Chinese Restaurant Process: ddCRP）と自然に統合されています。当システムは完全監督型であり、タイムスタンプ付きの話者ラベルが注釈された例から学習することが可能です。NIST SRE 2000 CALLHOMEにおいて、7.6%のダイアリゼーション誤り率を達成しました。これはスペクトラルクラスタリングを使用した最先端の手法よりも優れています。さらに、当手法はオンラインデコーディングが可能であるのに対し、多くの最先端システムはオフラインクラスタリングに依存しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています