Multi-Decoder DPRNN: Hohe Genauigkeit bei der Quellenzählung und -trennung

Wir stellen einen end-to-end trainierbaren Ansatz für die Sprachtrennung mit nur einem Kanal und unbekannter Anzahl von Sprechern vor. Unser Ansatz erweitert den MulCat-Grundbaustein für Quellentrennung um zusätzliche Ausgabeköpfe: einen Count-Head zur Schätzung der Anzahl der Sprecher und Decoder-Head zur Rekonstruktion der ursprünglichen Signale. Neben dem Modell schlagen wir auch eine Metrik vor, um die Quellentrennung bei variabler Anzahl von Sprechern zu bewerten. Insbesondere klären wir die Frage, wie die Qualität bewertet werden soll, wenn die Anzahl der Sprecher im Ground-Truth größer oder kleiner ist als die Anzahl der Sprecher, die vom Modell vorhergesagt wird. Wir evaluieren unseren Ansatz anhand der WSJ0-mix-Datensätze, wobei Mischungen mit bis zu fünf Sprechern betrachtet werden. Wir zeigen, dass unser Ansatz die aktuell besten Ergebnisse bei der Schätzung der Sprecheranzahl erzielt und gleichzeitig konkurrenzfähige Ergebnisse hinsichtlich der Qualität der rekonstruierten Signale liefert.