
要約
最近、エンドツーエンド型ニューラル・ダイアライゼーション(EEND)が導入され、発話者重複状況において有望な成果を達成している。EENDでは、発話者ダイアライゼーションが多ラベル分類問題として定式化されており、各発話者の活動が独立して推定されるため、発話者間の依存関係が十分に考慮されていないという課題がある。この問題を克服するため、本研究ではパワーセット符号化(power set encoding)を用いて発話者ダイアライゼーションを単一ラベル分類問題に再定式化し、発話者重複と依存関係を明示的にモデル化できる「オーバーラップ対応型EEND(EEND-OLA)」モデルを提案する。二段階ハイブリッドシステムの成功に着想を得て、EEND-OLAのダイアライゼーション結果を反復的に精緻化するため、発話者重複に敏感な後処理モデル(SOAP)を導入した新たな二段階オーバーラップ対応型ダイアライゼーションフレームワーク(TOLD)をさらに提案した。実験結果から、従来のEENDと比較して、提案するEEND-OLAはダイアライゼーション誤り率(DER)において14.39%の相対改善を達成し、SOAPを活用することでさらに19.33%の相対改善が得られた。その結果、本手法TOLDはCALLHOMEデータセットにおいてDER 10.14%を達成し、知られている限り、このベンチマークで新たな最良成績(SOTA)を記録した。