HyperAIHyperAI
vor 17 Tagen

Inter-channel Conv-TasNet für die Mehrkanal-Sprachverbesserung

Dongheon Lee, Seongrae Kim, Jung-Woo Choi
Inter-channel Conv-TasNet für die Mehrkanal-Sprachverbesserung
Abstract

Die Sprachverbesserung in mehrkanaligen Umgebungen wurde durch die Nutzung der in mehreren Mikrosignalen enthaltenen räumlichen Informationen realisiert. Zudem haben tiefgreifende neuronale Netzwerke (DNNs) in diesem Bereich in letzter Zeit erhebliche Fortschritte gemacht; dennoch befindet sich die Forschung zu effizienten mehrkanaligen Netzwerkarchitekturen, die räumliche Informationen und Inter-Kanal-Beziehungen vollständig ausnutzen, noch in einer frühen Entwicklungsphase. In dieser Studie stellen wir ein end-to-end-Netzwerk im Zeitbereich zur Sprachverbesserung vor, das die Nutzung von Inter-Kanal-Beziehungen auf einzelnen Schichten eines DNNs ermöglicht. Die vorgeschlagene Methode basiert auf einem vollständig konvolutionellen Zeitbereichs-Audio-Separationsnetzwerk (Conv-TasNet), das ursprünglich für Sprachseparation entwickelt wurde. Wir erweitern Conv-TasNet in mehrere Formen, die mehrkanalige Eingabesignale verarbeiten und Inter-Kanal-Beziehungen lernen können. Dazu modifizieren wir die Encoder-Mask-Decoder-Architektur des Netzwerks, sodass sie mit 3D-Tensoren kompatibel ist, die über die räumlichen Kanäle, Merkmale und die Zeitdimension definiert sind. Insbesondere führen wir eine umfassende Parameteranalyse der Konvolutionstruktur durch und schlagen eine unabhängige Zuweisung der Depthwise- und 1×1-Konvolutionsschichten jeweils auf die Merkmals- und räumliche Dimensionen vor. Wir zeigen, dass die durch das vorgeschlagene Netzwerk bereitgestellte angereicherte Inter-Kanal-Information eine entscheidende Rolle bei der Unterdrückung von Rauschsignalen aus verschiedenen Richtungen spielt. Das vorgeschlagene Inter-Kanal-Conv-TasNet übertrifft die derzeit besten mehrkanaligen Varianten neuronaler Netzwerke, selbst bei nur einem Zehntel der Parameteranzahl. Die Leistung des vorgeschlagenen Modells wird anhand des CHiME-3-Datensatzes evaluiert und zeigt eine bemerkenswerte Verbesserung hinsichtlich SDR, PESQ und STOI.