vor 15 Tagen
Stimmtrennung mit einer unbekannten Anzahl mehrerer Sprecher
Eliya Nachmani, Yossi Adi, Lior Wolf

Abstract
Wir stellen eine neue Methode zur Trennung einer gemischten Audiodatei vor, bei der mehrere Stimmen gleichzeitig sprechen. Die neue Methode nutzt gatete neuronale Netze, die darauf trainiert sind, die Stimmen über mehrere Verarbeitungsschritte hinweg zu trennen, wobei die Sprecher in jeder Ausgabekanal festgehalten werden. Für jede mögliche Anzahl von Sprechern wird ein separates Modell trainiert, und das Modell mit der größten Anzahl von Sprechern wird verwendet, um die tatsächliche Anzahl von Sprechern in einer gegebenen Audiodatei zu bestimmen. Unsere Methode übertrifft die derzeitige State-of-the-Art-Technik erheblich, wie wir zeigen, wobei diese für mehr als zwei Sprecher nicht mehr wettbewerbsfähig ist.