HyperAIHyperAI

Command Palette

Search for a command to run...

Wavesplit: End-to-End-Sprachtrennung durch Sprecherclustering

Neil Zeghidour David Grangier

Zusammenfassung

Wir stellen Wavesplit vor, ein end-to-end-Quellentrennsystem. Aus einer einzigen Mischung schätzt das Modell eine Darstellung für jede Quelle und schätzt anschließend das jeweilige Quellensignal anhand der geschätzten Darstellungen. Das Modell wird sowohl zur Schätzung der Quellendarstellungen als auch zur Schätzung der Quellensignale direkt aus der rohen Wellenform gemeinsam trainiert. Wavesplit ermittelt eine Menge von Quellendarstellungen mittels Clustering, wodurch das grundlegende Permutationsproblem der Trennung adressiert wird. Für die Sprachentrennung liefern unsere sequenzweiten Sprecherdarstellungen eine robusteres Trennverhalten bei langen und anspruchsvollen Aufnahmen im Vergleich zu vorherigen Ansätzen. Wavesplit definiert eine neue Benchmark auf sauberen Mischungen mit zwei oder drei Sprechern (WSJ0-2/3mix) sowie in geräuschkreuzenden und halligen Umgebungen (WHAM/WHAMR). Zudem setzen wir eine neue Referenzleistung auf dem jüngsten LibriMix-Datensatz. Schließlich zeigen wir, dass Wavesplit auch auf andere Anwendungsbereiche übertragbar ist, indem es Herzfrequenzen des Feten und der Mutter aus einer einzigen abdominalen Elektrokardiogramm-Aufnahme trennt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wavesplit: End-to-End-Sprachtrennung durch Sprecherclustering | Paper | HyperAI