vor 6 Monaten

Zusammenfassung

Der Kern der Einzelkanal-Sprachtrennung liegt darin, wie das Signalgemisch in einen solchen latente Embedding-Raum kodiert wird, dass die Signale verschiedener Sprecher präzise getrennt werden können. Bestehende Methoden zur Sprachtrennung transformieren die Sprachsignale entweder in den Frequenzbereich, um die Trennung durchzuführen, oder versuchen, einen trennbaren Embedding-Raum zu lernen, indem sie auf Basis von Faltungsfiltern einen latente Domäne konstruieren. Obwohl die letztere Gruppe von Methoden, die einen Embedding-Raum lernen, erhebliche Verbesserungen bei der Sprachtrennung erzielt hat, argumentieren wir, dass ein Embedding-Raum, der allein durch eine einzige latente Domäne definiert ist, nicht ausreicht, um einen vollständig trennbaren Kodierungsraum für die Sprachtrennung zu bieten. In diesem Artikel stellen wir das Stepwise-Refining Speech Separation Network (SRSSN) vor, das einem grob-zu-fein Trennungsrahmen folgt. Zunächst lernt das Modell eine 1. Ordnung latente Domäne, um einen Kodierungsraum zu definieren und eine grobe Trennung im ersten (groben) Schritt durchzuführen. Anschließend lernt das vorgeschlagene SRSSN in der Verbesserungsphase eine neue latente Domäne entlang jeder Basisfunktion der bestehenden latente Domäne, um eine höherwertige latente Domäne zu erhalten, was unserem Modell ermöglicht, eine feinere Trennung durchzuführen und somit eine präzisere Sprachtrennung zu erzielen. Wir belegen die Wirksamkeit unseres SRSSN durch umfangreiche Experimente, darunter die Sprachtrennung in einer reinen (geräuschfreien) Umgebung auf den WSJ0-2/3mix-Datensätzen sowie in störenden/verzerrten Umgebungen auf den WHAM!/WHAMR!-Datensätzen. Zudem führen wir zusätzliche Experimente zur Spracherkennung an den durch unser Modell getrennten Sprachsignalen durch, um die Leistung der Sprachtrennung indirekt zu bewerten.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio- Und Sprachverarbeitung

Faltungsneuronales Netzwerk

Zengwei Yao Wenjie Pei Fanglin Chen Guangming Lu David Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio- Und Sprachverarbeitung

Faltungsneuronales Netzwerk

Zengwei Yao Wenjie Pei Fanglin Chen Guangming Lu David Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Schrittweise Verfeinerung des Sprachtrennungsnetzwerks über feinabgestimmte Kodierung im hochordentlichen latente Domäne | Paper | HyperAI

Command Palette

Schrittweise Verfeinerung des Sprachtrennungsnetzwerks über feinabgestimmte Kodierung im hochordentlichen latente Domäne

Zengwei Yao Wenjie Pei Fanglin Chen Guangming Lu David Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Schrittweise Verfeinerung des Sprachtrennungsnetzwerks über feinabgestimmte Kodierung im hochordentlichen latente Domäne

Zengwei Yao Wenjie Pei Fanglin Chen Guangming Lu David Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Schrittweise Verfeinerung des Sprachtrennungsnetzwerks über feinabgestimmte Kodierung im hochordentlichen latente Domäne

Zengwei Yao Wenjie Pei Fanglin Chen Guangming Lu David Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters