Schrittweise Verfeinerung des Sprachtrennungsnetzwerks über feinabgestimmte Kodierung im hochordentlichen latente Domäne

Der Kern der Einzelkanal-Sprachtrennung liegt darin, wie das Signalgemisch in einen solchen latente Embedding-Raum kodiert wird, dass die Signale verschiedener Sprecher präzise getrennt werden können. Bestehende Methoden zur Sprachtrennung transformieren die Sprachsignale entweder in den Frequenzbereich, um die Trennung durchzuführen, oder versuchen, einen trennbaren Embedding-Raum zu lernen, indem sie auf Basis von Faltungsfiltern einen latente Domäne konstruieren. Obwohl die letztere Gruppe von Methoden, die einen Embedding-Raum lernen, erhebliche Verbesserungen bei der Sprachtrennung erzielt hat, argumentieren wir, dass ein Embedding-Raum, der allein durch eine einzige latente Domäne definiert ist, nicht ausreicht, um einen vollständig trennbaren Kodierungsraum für die Sprachtrennung zu bieten. In diesem Artikel stellen wir das Stepwise-Refining Speech Separation Network (SRSSN) vor, das einem grob-zu-fein Trennungsrahmen folgt. Zunächst lernt das Modell eine 1. Ordnung latente Domäne, um einen Kodierungsraum zu definieren und eine grobe Trennung im ersten (groben) Schritt durchzuführen. Anschließend lernt das vorgeschlagene SRSSN in der Verbesserungsphase eine neue latente Domäne entlang jeder Basisfunktion der bestehenden latente Domäne, um eine höherwertige latente Domäne zu erhalten, was unserem Modell ermöglicht, eine feinere Trennung durchzuführen und somit eine präzisere Sprachtrennung zu erzielen. Wir belegen die Wirksamkeit unseres SRSSN durch umfangreiche Experimente, darunter die Sprachtrennung in einer reinen (geräuschfreien) Umgebung auf den WSJ0-2/3mix-Datensätzen sowie in störenden/verzerrten Umgebungen auf den WHAM!/WHAMR!-Datensätzen. Zudem führen wir zusätzliche Experimente zur Spracherkennung an den durch unser Modell getrennten Sprachsignalen durch, um die Leistung der Sprachtrennung indirekt zu bewerten.