Eine effiziente Encoder-Decoder-Architektur mit top-down Attention für die Sprachtrennung

Tiefere neuronale Netze haben hervorragende Perspektiven bei Aufgaben der Sprachtrennung gezeigt. Dennoch bleibt es in realen Anwendungen herausfordernd, gute Ergebnisse zu erzielen, ohne die Modellkomplexität hoch zu halten. In diesem Paper stellen wir eine bio-inspirierte, effiziente Encoder-Decoder-Architektur vor, die die oben-gegen-unten-Aufmerksamkeit des Gehirns nachahmt und TDANet genannt wird. Diese Architektur reduziert die Modellkomplexität ohne Leistungseinbußen. Die oben-gegen-unten-Aufmerksamkeit in TDANet wird durch ein globales Aufmerksamkeitsmodul (GA) und mehrere kaskadierte lokale Aufmerksamkeitslagen (LA) extrahiert. Das GA-Modul verarbeitet akustische Merkmale mehrerer Skalen, um ein globales Aufmerksamkeitssignal zu extrahieren, das anschließend Merkmale verschiedener Skalen über direkte oben-gegen-unten-Verbindungen moduliert. Die LA-Lagen nutzen Merkmale benachbarter Schichten als Eingabe, um ein lokales Aufmerksamkeitssignal zu erzeugen, das dann lateral in einer oben-gegen-unten-Weise die Eingaben moduliert. Auf drei Benchmark-Datensätzen erzielte TDANet konsistent wettbewerbsfähige Trennleistungen im Vergleich zu vorherigen State-of-the-Art (SOTA)-Methoden, jedoch mit höherer Effizienz. Insbesondere betragen die Multiply-Accumulate-Operationen (MACs) von TDANet nur 5 % von Sepformer, einer der vorherigen SOTA-Modelle, und die CPU-Inferenzzeit liegt bei nur 10 % von Sepformer. Darüber hinaus erzielte eine großformatige Version von TDANet SOTA-Ergebnisse auf allen drei Datensätzen, wobei die MACs weiterhin nur 10 % und die CPU-Inferenzzeit nur 24 % von Sepformer betrugen.