16日前

潜在領域におけるベイズ推論を用いた教師なしソース分離

Michele Mancusi, Emilian Postolache, Giorgio Mariani, Marco Fumero, Andrea Santilli, Luca Cosmo, Emanuele Rodolà

要約

最先端の音声源分離モデルは、ラベル付けに多大なリソースを要する教師ありのデータ駆動型アプローチに依存している。一方で、直接的な教師信号を用いない教師なし学習手法は、メモリおよび計算時間の要求が非常に高く、推論時における実用性に欠ける場合が多い。本研究では、時間領域信号の潜在表現に直接作用するシンプルながら効果的な教師なし分離アルゴリズムを提案することで、これらの制約を克服することを目的とする。本手法は、事前に学習された自己回帰ネットワークを用いた深層ベイズ的事前分布を用いて、各音源の確率分布をモデル化する。特に、新規に導入した損失関数により、離散的な潜在空間に明確な算術的構造を強制することで、潜在空間の低基数性（low cardinality）を活かし、近似戦略に依存せずに厳密なベイズ推論を実現する。本手法はSlakhデータセット（arXiv:1909.08494）上で検証され、教師あり最先端手法と同等の性能を達成しつつ、他の教師なし手法と比較してより少ないリソースで実行可能であることが示された。