2ヶ月前

深層クラスタリング:セグメンテーションと分離のための識別的埋め込み

John R. Hershey; Zhuo Chen; Jonathan Le Roux; Shinji Watanabe
深層クラスタリング:セグメンテーションと分離のための識別的埋め込み
要約

私たちは「ディープクラスタリング」と呼ぶ深層学習フレームワークにおいて、音響源分離の問題に取り組んでいます。信号やマスキング関数を直接推定するのではなく、訓練データで与えられた分割ラベルに対して識別可能なスペクトログラム埋め込みを生成するために深層ネットワークを訓練します。従来の深層ネットワークアプローチは学習能力と速度において大きな利点を提供していましたが、クラスに依存しない方法で信号を分離する方法が明確でなかったため、その利用には限界がありました。一方、スペクトルクラスタリングアプローチは分類対象や分割する項目数に対する柔軟性がありますが、深層ネットワークの学習能力と速度を利用する方法が不明でした。両者の長所を得るため、クラスに依存しない方法で理想的なペアワイズ親和性行列の低ランク近似を生成する埋め込みを訓練する目的関数を使用します。これにより、スペクトル分解の高いコストを避けることができ、単純なクラスタリング手法に適したコンパクトなクラスターが生成されます。したがって、セグメンテーションは埋め込みに暗黙的に符号化され、クラスタリングによって「復号」することができます。初期実験では、提案された手法がスピーチの分離に有効であることが示されました。2人の話者混合スペクトログラム特徴量で訓練し、別の話者セットでの混合音声に対してテストを行った結果、約6dBの信号品質向上につながるマスキング関数を推定できました。さらに、2人の話者混合のみで訓練したにもかかわらず、3人の話者混合に対してもモデルが汎化できることが確認されました。このフレームワークはクラスラベルなしで使用できるため、多様な音響タイプでの訓練および新規ソースへの汎化が可能です。今後は任意の音響のセグメンテーションだけでなく、マイクロフォン配列法や画像セグメンテーションなど他の領域への拡張も期待されています。

深層クラスタリング:セグメンテーションと分離のための識別的埋め込み | 最新論文 | HyperAI超神経