
要約
最近、パラメータ共有型再帰型ニューラルネットワークを複数用いて話者をモデル化する完全教師あり話者ダイアライゼーション手法(UIS-RNN)が提案された。本論文では、学習効率および全体的なダイアライゼーション性能を著しく向上させるための定性的なモデル改良を提案する。特に、新規の損失関数「サンプル平均損失(Sample Mean Loss)」を導入し、話者発話の挙動をより適切にモデル化するために、会話に新たな話者が参加する確率を解析的に計算する式を構築した。さらに、本モデルが固定長の音声セグメント上で学習可能であり、推論時に話者変更情報の必要性を排除できることを示した。x-vectorを入力特徴量として用い、DIHARD IIチャレンジで用いられたマルチドメインデータセット上で本手法を評価した結果、オンライン処理方式としての本手法は元のUIS-RNNを上回る性能を示し、PLDAスコアリングを用いたオフライン階層的クラスタリングベースラインと同等の性能を達成した。