HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Decoder DPRNN: Hohe Genauigkeit bei der Quellenzählung und -trennung

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

Zusammenfassung

Wir stellen einen end-to-end trainierbaren Ansatz für die Sprachtrennung mit nur einem Kanal und unbekannter Anzahl von Sprechern vor. Unser Ansatz erweitert den MulCat-Grundbaustein für Quellentrennung um zusätzliche Ausgabeköpfe: einen Count-Head zur Schätzung der Anzahl der Sprecher und Decoder-Head zur Rekonstruktion der ursprünglichen Signale. Neben dem Modell schlagen wir auch eine Metrik vor, um die Quellentrennung bei variabler Anzahl von Sprechern zu bewerten. Insbesondere klären wir die Frage, wie die Qualität bewertet werden soll, wenn die Anzahl der Sprecher im Ground-Truth größer oder kleiner ist als die Anzahl der Sprecher, die vom Modell vorhergesagt wird. Wir evaluieren unseren Ansatz anhand der WSJ0-mix-Datensätze, wobei Mischungen mit bis zu fünf Sprechern betrachtet werden. Wir zeigen, dass unser Ansatz die aktuell besten Ergebnisse bei der Schätzung der Sprecheranzahl erzielt und gleichzeitig konkurrenzfähige Ergebnisse hinsichtlich der Qualität der rekonstruierten Signale liefert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp