
要約
本論文では、完全監督型話者ダイアリゼーション手法として、無限交互状態再帰ニューラルネットワーク(Unbounded Interleaved-State Recurrent Neural Networks: UIS-RNN)を提案します。入力発話から抽出された話者識別埋め込み(いわゆる d-ベクトル)を用いて、各個別の話者はパラメータ共有型RNNによってモデル化され、異なる話者のRNN状態は時間領域で交互に配置されます。このRNNは、未知数の話者に対応するため、距離依存的なチャイニーズレストランプロセス(distance-dependent Chinese Restaurant Process: ddCRP)と自然に統合されています。当システムは完全監督型であり、タイムスタンプ付きの話者ラベルが注釈された例から学習することが可能です。NIST SRE 2000 CALLHOMEにおいて、7.6%のダイアリゼーション誤り率を達成しました。これはスペクトラルクラスタリングを使用した最先端の手法よりも優れています。さらに、当手法はオンラインデコーディングが可能であるのに対し、多くの最先端システムはオフラインクラスタリングに依存しています。