HyperAIHyperAI

Command Palette

Search for a command to run...

Sandglasset: Ein leichtgewichtiges, mehrgranulares selbst-attentives Netzwerk für die Zeitbereichs-Sprachtrennung

Max W. Y. Lam Jun Wang Dan Su Dong Yu

Zusammenfassung

Ein führendes Einzelkanal-Sprachtrennmodell basiert auf einem TasNet mit einer Dual-Path-Segmentierungstechnik, bei der die Segmentgröße in allen Schichten konstant bleibt. Im Gegensatz dazu zeigt unsere zentrale Erkenntnis, dass mehrschalige Merkmale entscheidend für die Verbesserung der Kontextmodellierung und der rechnerischen Effizienz sind. Wir stellen ein selbst-attentives Netzwerk mit einer neuartigen Sanduhrform vor, das Sandglasset genannt wird, welches die Stand der Technik (SOTA) in der Sprachtrennung bei erheblich kleinerem Modellumfang und geringeren rechnerischen Kosten erreicht. Innerhalb jedes Blocks des Sandglasset wird die zeitliche Granularität der Merkmale schrittweise grober, bis die Hälfte der Netzwerkblöcke erreicht ist, danach wird sie sukzessiv feiner bis hin zum Niveau des Rohsignals. Zudem zeigen wir, dass Residualverbindungen zwischen Merkmalen derselben Granularität entscheidend sind, um Informationen nach dem Durchlaufen der Engstelle (Bottleneck) zu bewahren. Experimente belegen, dass unser Sandglasset mit lediglich 2,3 Mio. Parametern die besten Ergebnisse auf zwei etablierten Benchmark-Datensätzen für Sprachtrennung – WSJ0-2mix und WSJ0-3mix – erzielt, wobei die SI-SNRi-Werte gegenüber den vorherigen SOTA-Ergebnissen um jeweils 0,8 dB und 2,4 dB absolut verbessert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sandglasset: Ein leichtgewichtiges, mehrgranulares selbst-attentives Netzwerk für die Zeitbereichs-Sprachtrennung | Paper | HyperAI