HyperAIHyperAI

Command Palette

Search for a command to run...

MossFormer2: Kombination von Transformer und RNN-freiem rekurrentem Netzwerk zur verbesserten zeitdomänischen monauralen Sprachtrennung

Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou Jiaqi Yip Dianwen Ng Bin Ma

Zusammenfassung

Unser zuvor vorgeschlagener MossFormer hat vielversprechende Ergebnisse bei der monauralen Sprachtrennung erzielt. Allerdings basiert er vorwiegend auf einem selbst-attention-basierten MossFormer-Modul, das tendenziell längere, grobskalierte Abhängigkeiten betont und Schwächen bei der effektiven Modellierung feinskalarer rekurrenter Muster aufweist. In dieser Arbeit stellen wir ein neuartiges hybrides Modell vor, das die Fähigkeit zur Modellierung sowohl langer, grobskaliger Abhängigkeiten als auch feinskalarer rekurrenter Muster bietet, indem ein rekurrentes Modul in den MossFormer-Framework integriert wird. Anstatt herkömmliche rekurrente neuronale Netzwerke (RNNs) mit klassischen rekurrenten Verbindungen zu verwenden, präsentieren wir ein rekurrentes Modul auf Basis eines feedforward sequentiellen Speicher-Netzwerks (FSMN), das als „RNN-freies“ rekurrentes Netzwerk gilt, da es rekurrente Muster ohne Verwendung rekurrenter Verbindungen erfassen kann. Unser rekurrentes Modul besteht hauptsächlich aus einem verbesserten dilatierten FSMN-Block, der gatete Faltungs-Einheiten (GCU) und dichte Verbindungen nutzt. Zudem werden eine Bottleneck-Schicht und eine Ausgabeschicht hinzugefügt, um den Informationsfluss zu steuern. Das rekurrente Modul beruht auf linearen Projektionen und Faltungen, um die gesamte Sequenz nahtlos und parallel zu verarbeiten. Das integrierte hybride Modell MossFormer2 zeigt signifikante Verbesserungen gegenüber dem ursprünglichen MossFormer und erreicht zudem Spitzenleistungen gegenüber anderen state-of-the-art-Methoden auf den Benchmarks WSJ0-2/3mix, Libri2Mix und WHAM!/WHAMR! (https://github.com/modelscope/ClearerVoice-Studio).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp