HyperAIHyperAI
vor 2 Monaten

Separat und diffus: Die Verwendung eines vortrainierten Diffusionsmodells zur Verbesserung der Quellentrennung

Shahar Lutati; Eliya Nachmani; Lior Wolf
Separat und diffus: Die Verwendung eines vortrainierten Diffusionsmodells zur Verbesserung der Quellentrennung
Abstract

Das Problem der Sprachtrennung, auch bekannt als das Cocktail-Party-Problem, bezieht sich auf die Aufgabe, ein einzelnes Sprachsignal aus einer Mischung von Sprachsignalen zu isolieren. Frühere Arbeiten zur Quellentrennung haben eine obere Schranke für die Quellentrennungsaufgabe im Bereich der menschlichen Sprache abgeleitet. Diese Schranke wurde für deterministische Modelle hergeleitet. Neuere Fortschritte in den generativen Modellen stellen diese Schranke infrage. Wir zeigen, wie die obere Schranke auf den Fall zufälliger generativer Modelle verallgemeinert werden kann. Die Anwendung eines Diffusionsmodell-Vocoders, der vortrainiert wurde, um Einzelsprecherstimmen zu modellieren, auf das Ausgabe des deterministischen Trennungsmodells führt zu Stand-of-the-Art-Trennungsresultaten. Es wird gezeigt, dass dies erfordert, das Ausgabe des Trennungsmodells mit dem des Diffusionsmodells zu kombinieren. In unserer Methode wird eine lineare Kombination im Frequenzbereich durchgeführt, wobei die Gewichte durch ein gelerntes Modell abgeleitet werden. Wir präsentieren Stand-of-the-Art-Ergebnisse für 2, 3, 5, 10 und 20 Sprecher in mehreren Benchmarks. Insbesondere bei zwei Sprechern ist unsere Methode in der Lage, das bisherige obere Leistungsniveau zu übertreffen.请注意,"Stand-of-the-Art" 在德语中通常写作 "Stand der Technik" 或 "State-of-the-Art". 根据上下文,这里选择使用 "State-of-the-Art",因为它在科技文献中更为常见。

Separat und diffus: Die Verwendung eines vortrainierten Diffusionsmodells zur Verbesserung der Quellentrennung | Neueste Forschungsarbeiten | HyperAI