Sandglasset: Ein leichtgewichtiges, mehrgranulares selbst-attentives Netzwerk für die Zeitbereichs-Sprachtrennung

Ein führendes Einzelkanal-Sprachtrennmodell basiert auf einem TasNet mit einer Dual-Path-Segmentierungstechnik, bei der die Segmentgröße in allen Schichten konstant bleibt. Im Gegensatz dazu zeigt unsere zentrale Erkenntnis, dass mehrschalige Merkmale entscheidend für die Verbesserung der Kontextmodellierung und der rechnerischen Effizienz sind. Wir stellen ein selbst-attentives Netzwerk mit einer neuartigen Sanduhrform vor, das Sandglasset genannt wird, welches die Stand der Technik (SOTA) in der Sprachtrennung bei erheblich kleinerem Modellumfang und geringeren rechnerischen Kosten erreicht. Innerhalb jedes Blocks des Sandglasset wird die zeitliche Granularität der Merkmale schrittweise grober, bis die Hälfte der Netzwerkblöcke erreicht ist, danach wird sie sukzessiv feiner bis hin zum Niveau des Rohsignals. Zudem zeigen wir, dass Residualverbindungen zwischen Merkmalen derselben Granularität entscheidend sind, um Informationen nach dem Durchlaufen der Engstelle (Bottleneck) zu bewahren. Experimente belegen, dass unser Sandglasset mit lediglich 2,3 Mio. Parametern die besten Ergebnisse auf zwei etablierten Benchmark-Datensätzen für Sprachtrennung – WSJ0-2mix und WSJ0-3mix – erzielt, wobei die SI-SNRi-Werte gegenüber den vorherigen SOTA-Ergebnissen um jeweils 0,8 dB und 2,4 dB absolut verbessert wurden.