
要約
音声分離の問題、いわゆるカクテルパーティー問題とは、複数の音声信号が混ざった中から単一の音声信号を分離するタスクを指します。過去のソース分離に関する研究では、人間の音声領域におけるソース分離タスクに対して上限値を導出してきました。この上限値は確定的なモデルに対して導出されたものです。最近の生成モデルの進歩は、この上限値に挑戦しています。本稿では、ランダムな生成モデルの場合にもこの上限値を一般化する方法を示します。事前に単一話者の音声をモデル化するために学習された拡散モデルボコーダーを、確定的な分離モデルの出力に適用することで、最先端の分離結果が得られることを示しています。これは、分離モデルと拡散モデルの出力を組み合わせる必要があることを示しています。当手法では、学習済みモデルによって推論される重みを使用して周波数領域で線形結合を行います。当手法は、複数のベンチマークにおいて2人、3人、5人、10人、20人の話者に対する最先端の結果を示しており、特に2人の話者については従来考えられていた性能上限を超えることができることを示しています。