9日前
エンドツーエンド型ニューラルスピーカー・ダイアライゼーション:パーミュテーションフリーな目的関数を用いた手法
Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Kenji Nagamatsu, Shinji Watanabe

要約
本稿では、新しいエンドツーエンド型のニューラルネットワークベースの話者ダイアライゼーション手法を提案する。既存の多くの手法とは異なり、本手法は話者表現の抽出とクラスタリングを分離したモジュールを必要としない。代わりに、単一のニューラルネットワークによって直接話者ダイアライゼーションの結果を出力する。このようなモデルを実現するため、話者ダイアライゼーション問題をマルチラベル分類問題として定式化し、話者ラベルの順列問題に悩まされることなく、ダイアライゼーション誤りを直接最小化するパーミュテーションフリーな目的関数を導入した。エンドツーエンドの構造による単純さに加え、本手法はトレーニングおよび推論の過程で重なり話者(overlapping speech)を明示的に扱えるという利点も有している。この利点により、対応するマルチスピーカー話者セグメントラベルを入力するだけで、実録マルチスピーカー会話データを用いてモデルを容易にトレーニングまたは適応可能となる。本手法はシミュレートされた音声混合データ上で評価された結果、従来のクラスタリングベースのシステム(28.77%)と比較して、ダイアライゼーション誤り率(DER)12.28%を達成した。さらに、実録音声を用いたドメイン適応により、CALLHOMEデータセットにおいて25.6%の相対的改善が得られた。本研究のソースコードは、https://github.com/hitachi-speech/EEND にて公開されている。