HyperAIHyperAI

Command Palette

Search for a command to run...

Dual-Path Transformer Network: Direkte kontextbewusste Modellierung für end-to-end monaurale Sprachtrennung

Jingjing Chen Qirong Mao Dong Liu

Zusammenfassung

Die dominierenden Modelle zur Sprachtrennung basieren auf komplexen rekurrenten oder konvolutionellen neuronalen Netzwerken, die Sprachsequenzen indirekt unter Berücksichtigung des Kontexts modellieren, beispielsweise durch die Übertragung von Informationen über zahlreiche Zwischenzustände im rekurrenten neuronalen Netzwerk, was zu einer suboptimalen Trennleistung führt. In diesem Artikel stellen wir ein Dual-Path-Transformer-Netzwerk (DPTNet) für die end-to-end-Sprachtrennung vor, das eine direkte kontextbewusste Modellierung von Sprachsequenzen ermöglicht. Durch die Einführung eines verbesserten Transformers können Elemente innerhalb von Sprachsequenzen direkt miteinander interagieren, wodurch DPTNet in der Lage ist, Sprachsequenzen mit direkter Kontextbewusstheit zu modellieren. Der verbesserte Transformer in unserem Ansatz erlernt die Reihenfolge der Sprachsequenzen ohne Verwendung von Positionscodierungen, indem ein rekurrentes neuronales Netzwerk in den ursprünglichen Transformer integriert wird. Zudem ermöglicht die Struktur mit zwei Pfaden eine effiziente Modellierung extrem langer Sprachsequenzen. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen, dass unser Ansatz die derzeitigen State-of-the-Art-Methoden übertrifft (20,6 dB SDR auf der öffentlichen WSj0-2mix-Datensammlung).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Dual-Path Transformer Network: Direkte kontextbewusste Modellierung für end-to-end monaurale Sprachtrennung | Paper | HyperAI