HyperAIHyperAI

Command Palette

Search for a command to run...

Schrittweise Verfeinerung des Sprachtrennungsnetzwerks über feinabgestimmte Kodierung im hochordentlichen latente Domäne

Zengwei Yao Wenjie Pei Fanglin Chen Guangming Lu David Zhang

Zusammenfassung

Der Kern der Einzelkanal-Sprachtrennung liegt darin, wie das Signalgemisch in einen solchen latente Embedding-Raum kodiert wird, dass die Signale verschiedener Sprecher präzise getrennt werden können. Bestehende Methoden zur Sprachtrennung transformieren die Sprachsignale entweder in den Frequenzbereich, um die Trennung durchzuführen, oder versuchen, einen trennbaren Embedding-Raum zu lernen, indem sie auf Basis von Faltungsfiltern einen latente Domäne konstruieren. Obwohl die letztere Gruppe von Methoden, die einen Embedding-Raum lernen, erhebliche Verbesserungen bei der Sprachtrennung erzielt hat, argumentieren wir, dass ein Embedding-Raum, der allein durch eine einzige latente Domäne definiert ist, nicht ausreicht, um einen vollständig trennbaren Kodierungsraum für die Sprachtrennung zu bieten. In diesem Artikel stellen wir das Stepwise-Refining Speech Separation Network (SRSSN) vor, das einem grob-zu-fein Trennungsrahmen folgt. Zunächst lernt das Modell eine 1. Ordnung latente Domäne, um einen Kodierungsraum zu definieren und eine grobe Trennung im ersten (groben) Schritt durchzuführen. Anschließend lernt das vorgeschlagene SRSSN in der Verbesserungsphase eine neue latente Domäne entlang jeder Basisfunktion der bestehenden latente Domäne, um eine höherwertige latente Domäne zu erhalten, was unserem Modell ermöglicht, eine feinere Trennung durchzuführen und somit eine präzisere Sprachtrennung zu erzielen. Wir belegen die Wirksamkeit unseres SRSSN durch umfangreiche Experimente, darunter die Sprachtrennung in einer reinen (geräuschfreien) Umgebung auf den WSJ0-2/3mix-Datensätzen sowie in störenden/verzerrten Umgebungen auf den WHAM!/WHAMR!-Datensätzen. Zudem führen wir zusätzliche Experimente zur Spracherkennung an den durch unser Modell getrennten Sprachsignalen durch, um die Leistung der Sprachtrennung indirekt zu bewerten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp