エンドツーエンドニューラルスピーカーディアライゼーションにおけるセルフアテンション

スピーカー・ダイアライゼーションは、主にスピークァー埋め込みのクラスタリングに基づいて開発されてきた。しかし、クラスタリングに基づくアプローチには二つの主要な問題がある。すなわち、(i) ダイアライゼーション誤りを直接最小化するように最適化されていないこと、および (ii) 複数話者同時発話(speaker overlap)を適切に処理できないことである。これらの問題を解決するため、マルチターゲット録音を入力として、双方向長短期記憶ネットワーク(BLSTM)を用いて直接スピークァー・ダイアライゼーション結果を出力する、エンドツーエンド型ニューラル・ダイアライゼーション(EEND)が最近提案された。本研究では、EENDの性能を向上させるために、BLSTMブロックの代わりに自己注意(self-attention)ブロックを導入した。BLSTMは過去および未来の隠れ状態にのみ依存するのに対し、自己注意はすべての他のフレームに直接依存するため、スピークァー・ダイアライゼーション問題に対しより適している。本研究では、シミュレートされた混合音声、実際の電話通話、および実際の会話録音のデータセットを用いて、提案手法の性能を評価した。実験結果から、自己注意が優れた性能を達成する鍵であることが明らかになり、従来のBLSTMベースの手法と比較して著しく優れた性能を発揮することが確認された。さらに、最先端のx-vectorクラスタリングベース手法をも上回る結果が得られた。最後に、潜在表現の可視化により、自己注意が局所的な発話活動のダイナミクスに加えて、話者の全体的な特徴(グローバルな話者特性)を捉える能力を持つことが示された。本研究のソースコードは、https://github.com/hitachi-speech/EEND にて公開されている。