vor 15 Tagen

MossFormer2: Kombination von Transformer und RNN-freiem rekurrentem Netzwerk zur verbesserten zeitdomänischen monauralen Sprachtrennung

Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Jiaqi Yip, Dianwen Ng, Bin Ma

Abstract

Unser zuvor vorgeschlagener MossFormer hat vielversprechende Ergebnisse bei der monauralen Sprachtrennung erzielt. Allerdings basiert er vorwiegend auf einem selbst-attention-basierten MossFormer-Modul, das tendenziell längere, grobskalierte Abhängigkeiten betont und Schwächen bei der effektiven Modellierung feinskalarer rekurrenter Muster aufweist. In dieser Arbeit stellen wir ein neuartiges hybrides Modell vor, das die Fähigkeit zur Modellierung sowohl langer, grobskaliger Abhängigkeiten als auch feinskalarer rekurrenter Muster bietet, indem ein rekurrentes Modul in den MossFormer-Framework integriert wird. Anstatt herkömmliche rekurrente neuronale Netzwerke (RNNs) mit klassischen rekurrenten Verbindungen zu verwenden, präsentieren wir ein rekurrentes Modul auf Basis eines feedforward sequentiellen Speicher-Netzwerks (FSMN), das als „RNN-freies“ rekurrentes Netzwerk gilt, da es rekurrente Muster ohne Verwendung rekurrenter Verbindungen erfassen kann. Unser rekurrentes Modul besteht hauptsächlich aus einem verbesserten dilatierten FSMN-Block, der gatete Faltungs-Einheiten (GCU) und dichte Verbindungen nutzt. Zudem werden eine Bottleneck-Schicht und eine Ausgabeschicht hinzugefügt, um den Informationsfluss zu steuern. Das rekurrente Modul beruht auf linearen Projektionen und Faltungen, um die gesamte Sequenz nahtlos und parallel zu verarbeiten. Das integrierte hybride Modell MossFormer2 zeigt signifikante Verbesserungen gegenüber dem ursprünglichen MossFormer und erreicht zudem Spitzenleistungen gegenüber anderen state-of-the-art-Methoden auf den Benchmarks WSJ0-2/3mix, Libri2Mix und WHAM!/WHAMR! (https://github.com/modelscope/ClearerVoice-Studio).