HyperAIHyperAI
vor 15 Tagen

Mehr-Sprecher-Ein-Kanal-Sprachtrennung mit optimaler Permutationsausbildung

Shaked Dovrat, Eliya Nachmani, Lior Wolf
Mehr-Sprecher-Ein-Kanal-Sprachtrennung mit optimaler Permutationsausbildung
Abstract

Die Trennung einzelner Sprachkanäle hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch ist die Schulung neuronaler Sprachtrennverfahren für eine große Anzahl von Sprechern (z. B. mehr als 10 Sprecher) mit den derzeitigen Methoden, die auf der Permutationsinvarianten Verlustfunktion (Permutation Invariant Loss, PIT) basieren, nicht praktikabel. In dieser Arbeit stellen wir ein permutationsinvariantes Trainingsverfahren vor, das den Hungarian-Algorithmus nutzt und eine zeitliche Komplexität von $O(C^3)$ aufweist, wobei $C$ die Anzahl der Sprecher ist, im Vergleich zu $O(C!)$ bei PIT-basierten Methoden. Zudem präsentieren wir eine modifizierte Architektur, die die Behandlung einer erhöhten Anzahl von Sprechern ermöglicht. Unser Ansatz erlaubt die Trennung von bis zu 20 Sprechern und verbessert die bisherigen Ergebnisse für große $C$ deutlich.

Mehr-Sprecher-Ein-Kanal-Sprachtrennung mit optimaler Permutationsausbildung | Neueste Forschungsarbeiten | HyperAI