HyperAIHyperAI
vor 15 Tagen

Wavesplit: End-to-End-Sprachtrennung durch Sprecherclustering

Neil Zeghidour, David Grangier
Wavesplit: End-to-End-Sprachtrennung durch Sprecherclustering
Abstract

Wir stellen Wavesplit vor, ein end-to-end-Quellentrennsystem. Aus einer einzigen Mischung schätzt das Modell eine Darstellung für jede Quelle und schätzt anschließend das jeweilige Quellensignal anhand der geschätzten Darstellungen. Das Modell wird sowohl zur Schätzung der Quellendarstellungen als auch zur Schätzung der Quellensignale direkt aus der rohen Wellenform gemeinsam trainiert. Wavesplit ermittelt eine Menge von Quellendarstellungen mittels Clustering, wodurch das grundlegende Permutationsproblem der Trennung adressiert wird. Für die Sprachentrennung liefern unsere sequenzweiten Sprecherdarstellungen eine robusteres Trennverhalten bei langen und anspruchsvollen Aufnahmen im Vergleich zu vorherigen Ansätzen. Wavesplit definiert eine neue Benchmark auf sauberen Mischungen mit zwei oder drei Sprechern (WSJ0-2/3mix) sowie in geräuschkreuzenden und halligen Umgebungen (WHAM/WHAMR). Zudem setzen wir eine neue Referenzleistung auf dem jüngsten LibriMix-Datensatz. Schließlich zeigen wir, dass Wavesplit auch auf andere Anwendungsbereiche übertragbar ist, indem es Herzfrequenzen des Feten und der Mutter aus einer einzigen abdominalen Elektrokardiogramm-Aufnahme trennt.

Wavesplit: End-to-End-Sprachtrennung durch Sprecherclustering | Neueste Forschungsarbeiten | HyperAI