HyperAIHyperAI

Command Palette

Search for a command to run...

Mehr-Sprecher-Ein-Kanal-Sprachtrennung mit optimaler Permutationsausbildung

Shaked Dovrat Eliya Nachmani Lior Wolf

Zusammenfassung

Die Trennung einzelner Sprachkanäle hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch ist die Schulung neuronaler Sprachtrennverfahren für eine große Anzahl von Sprechern (z. B. mehr als 10 Sprecher) mit den derzeitigen Methoden, die auf der Permutationsinvarianten Verlustfunktion (Permutation Invariant Loss, PIT) basieren, nicht praktikabel. In dieser Arbeit stellen wir ein permutationsinvariantes Trainingsverfahren vor, das den Hungarian-Algorithmus nutzt und eine zeitliche Komplexität von O(C3)O(C^3)O(C3) aufweist, wobei CCC die Anzahl der Sprecher ist, im Vergleich zu O(C!)O(C!)O(C!) bei PIT-basierten Methoden. Zudem präsentieren wir eine modifizierte Architektur, die die Behandlung einer erhöhten Anzahl von Sprechern ermöglicht. Unser Ansatz erlaubt die Trennung von bis zu 20 Sprechern und verbessert die bisherigen Ergebnisse für große CCC deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp