Dual-Path Transformer Network: Direkte kontextbewusste Modellierung für end-to-end monaurale Sprachtrennung

Die dominierenden Modelle zur Sprachtrennung basieren auf komplexen rekurrenten oder konvolutionellen neuronalen Netzwerken, die Sprachsequenzen indirekt unter Berücksichtigung des Kontexts modellieren, beispielsweise durch die Übertragung von Informationen über zahlreiche Zwischenzustände im rekurrenten neuronalen Netzwerk, was zu einer suboptimalen Trennleistung führt. In diesem Artikel stellen wir ein Dual-Path-Transformer-Netzwerk (DPTNet) für die end-to-end-Sprachtrennung vor, das eine direkte kontextbewusste Modellierung von Sprachsequenzen ermöglicht. Durch die Einführung eines verbesserten Transformers können Elemente innerhalb von Sprachsequenzen direkt miteinander interagieren, wodurch DPTNet in der Lage ist, Sprachsequenzen mit direkter Kontextbewusstheit zu modellieren. Der verbesserte Transformer in unserem Ansatz erlernt die Reihenfolge der Sprachsequenzen ohne Verwendung von Positionscodierungen, indem ein rekurrentes neuronales Netzwerk in den ursprünglichen Transformer integriert wird. Zudem ermöglicht die Struktur mit zwei Pfaden eine effiziente Modellierung extrem langer Sprachsequenzen. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass unser Ansatz die derzeitigen State-of-the-Art-Methoden übertrifft (20,6 dB SDR auf der öffentlichen WSj0-2mix-Datensammlung).