8日前
Speaker Embeddingを意識したニューラル・ディアライゼーション:会議場面における重なり音声ディアライゼーションのための効率的フレームワーク
Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan

要約
重複発話のダイアライゼーションは従来、マルチラベル分類問題として扱われてきました。本論文では、ターゲット話者の可能な組み合わせを表すべきベキ集合(power set)を用いて複数の二値ラベルを1つのラベルに符号化することで、このタスクを単一ラベル予測問題に再定式化します。この定式化には2つの利点があります。第一に、ターゲット話者の重複が明示的にモデル化されます。第二に、しきい値の選定が不要になります。この定式化に基づき、音声エンコーダ、話者エンコーダ、2つの類似度スコアリング機構、および後処理ネットワークを統合的に最適化して、音声特徴と話者埋め込みの類似度に基づいて符号化されたラベルを予測する「話者埋め込みに依存するニューラルダイアライゼーション(SEND)」フレームワークを提案します。実験結果から、SENDは安定した学習プロセスを示し、追加の初期化なしに高度に重複するデータ上で学習可能であることが確認されました。さらに、本手法はモデルパラメータ数が少なく、計算複雑度も低いという利点を有しながら、実際の会議場面において最先端の性能を達成しています。