HyperAIHyperAI

Command Palette

Search for a command to run...

TOLD:発話者ダイアライゼーションのための新規2段階型オーバーラップ対応フレームワーク

Jiaming Wang Zhihao Du Shiliang Zhang

概要

最近、エンドツーエンド型ニューラル・ダイアライゼーション(EEND)が導入され、発話者重複状況において有望な成果を達成している。EENDでは、発話者ダイアライゼーションが多ラベル分類問題として定式化されており、各発話者の活動が独立して推定されるため、発話者間の依存関係が十分に考慮されていないという課題がある。この問題を克服するため、本研究ではパワーセット符号化(power set encoding)を用いて発話者ダイアライゼーションを単一ラベル分類問題に再定式化し、発話者重複と依存関係を明示的にモデル化できる「オーバーラップ対応型EEND(EEND-OLA)」モデルを提案する。二段階ハイブリッドシステムの成功に着想を得て、EEND-OLAのダイアライゼーション結果を反復的に精緻化するため、発話者重複に敏感な後処理モデル(SOAP)を導入した新たな二段階オーバーラップ対応型ダイアライゼーションフレームワーク(TOLD)をさらに提案した。実験結果から、従来のEENDと比較して、提案するEEND-OLAはダイアライゼーション誤り率(DER)において14.39%の相対改善を達成し、SOAPを活用することでさらに19.33%の相対改善が得られた。その結果、本手法TOLDはCALLHOMEデータセットにおいてDER 10.14%を達成し、知られている限り、このベンチマークで新たな最良成績(SOTA)を記録した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています