vor 6 Monaten

Zusammenfassung

Wir stellen einen end-to-end trainierbaren Ansatz für die Sprachtrennung mit nur einem Kanal und unbekannter Anzahl von Sprechern vor. Unser Ansatz erweitert den MulCat-Grundbaustein für Quellentrennung um zusätzliche Ausgabeköpfe: einen Count-Head zur Schätzung der Anzahl der Sprecher und Decoder-Head zur Rekonstruktion der ursprünglichen Signale. Neben dem Modell schlagen wir auch eine Metrik vor, um die Quellentrennung bei variabler Anzahl von Sprechern zu bewerten. Insbesondere klären wir die Frage, wie die Qualität bewertet werden soll, wenn die Anzahl der Sprecher im Ground-Truth größer oder kleiner ist als die Anzahl der Sprecher, die vom Modell vorhergesagt wird. Wir evaluieren unseren Ansatz anhand der WSJ0-mix-Datensätze, wobei Mischungen mit bis zu fünf Sprechern betrachtet werden. Wir zeigen, dass unser Ansatz die aktuell besten Ergebnisse bei der Schätzung der Sprecheranzahl erzielt und gleichzeitig konkurrenzfähige Ergebnisse hinsichtlich der Qualität der rekonstruierten Signale liefert.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio- Und Sprachverarbeitung

Multi-Task-Lernen

Faltungsneuronales Netzwerk

Ansatz/Rahmenwerk

Audio

Aufgabe

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Audio- Und Sprachverarbeitung

Multi-Task-Lernen

Faltungsneuronales Netzwerk

Ansatz/Rahmenwerk

Audio

Aufgabe

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Multi-Decoder DPRNN: Hohe Genauigkeit bei der Quellenzählung und -trennung | Paper | HyperAI

Command Palette

Multi-Decoder DPRNN: Hohe Genauigkeit bei der Quellenzählung und -trennung

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Multi-Decoder DPRNN: Hohe Genauigkeit bei der Quellenzählung und -trennung

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Multi-Decoder DPRNN: Hohe Genauigkeit bei der Quellenzählung und -trennung

Junzhe Zhu Raymond Yeh Mark Hasegawa-Johnson

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters