HyperAIHyperAI
vor 2 Monaten

Conv-TasNet: Übersteigern der idealen Zeit-Frequenz-Amplitudenmaske für die Sprachtrennung

Yi Luo; Nima Mesgarani
Conv-TasNet: Übersteigern der idealen Zeit-Frequenz-Amplitudenmaske für die Sprachtrennung
Abstract

Einzelkanalige, sprecherunabhängige Sprachtrennungsverfahren haben kürzlich große Fortschritte gemacht. Dennoch bleiben die Genauigkeit, das Verzögerungsfenster und der Rechenaufwand dieser Methoden unzureichend. Die meisten bisherigen Ansätze haben das Trennungsproblem durch die Zeit-Frequenz-Darstellung des gemischten Signals formuliert, was mehrere Nachteile mit sich bringt: die Entkopplung von Phasen- und Amplitudensignalen, die Suboptimalität der Zeit-Frequenz-Darstellung für die Sprachtrennung sowie die lange Verzögerung bei der Berechnung der Spektrogramme. Um diese Mängel zu beheben, schlagen wir ein voll konvolutionsbasiertes Zeitbereichsaudio-Trennungsnetzwerk (Conv-TasNet) vor, ein tiefes Lernframework für eine end-to-end-Zeitbereichssprachtrennung. Conv-TasNet verwendet einen linearen Encoder zur Generierung einer Darstellung des Sprachsignals, die auf die Trennung einzelner Sprecher optimiert ist. Die Sprecherunterscheidung wird erreicht, indem eine Reihe von Gewichtsfunktionen (Masken) auf den Encoder-Ausgang angewendet werden. Die modifizierten Encoder-Darstellungen werden dann mittels eines linearen Decoders zurück in Wellenformen transformiert. Die Masken werden mithilfe eines zeitlichen Faltungsnetzes (Temporal Convolutional Network, TCN) gefunden, das aus gestapelten eindimensionalen dilatierten Faltungsblöcken besteht. Dies ermöglicht es dem Netzwerk, langfristige Abhängigkeiten des Sprachsignals zu modellieren, während gleichzeitig eine kleine Modellgröße gewährleistet wird. Das vorgeschlagene Conv-TasNet-System übertrifft die bisherigen Zeit-Frequenz-Maskierungsverfahren erheblich bei der Trennung von Zwei- und Dreisprecher-Mischungen. Zudem übertreffen Conv-TasNet mehrere ideale Zeit-Frequenz-Amplitudenmasken bei der Trennung von Zweisprecher-Sprüchen sowohl nach objektiven Verzerrungsmaßen als auch nach subjektiven Qualitätseinschätzungen durch menschliche Hörer. Schließlich weist Conv-TasNet eine erheblich kleinere Modellgröße und eine kürzere minimale Verzögerung auf, wodurch es sowohl für Offline- als auch für Echtzeitanwendungen in der Sprachtrennung geeignet ist.

Conv-TasNet: Übersteigern der idealen Zeit-Frequenz-Amplitudenmaske für die Sprachtrennung | Neueste Forschungsarbeiten | HyperAI