HyperAIHyperAI

Command Palette

Search for a command to run...

MossFormer2 : Intégration du Transformer et d'un réseau récurrent sans RNN pour une séparation de parole monaurale en domaine temporel améliorée

Shengkui Zhao Yukun Ma Chongjia Ni Chong Zhang Hao Wang Trung Hieu Nguyen Kun Zhou Jiaqi Yip Dianwen Ng Bin Ma

Résumé

Notre modèle précédemment proposé, MossFormer, a obtenu des performances prometteuses dans la séparation de parole monaurale. Toutefois, il repose principalement sur un module MossFormer basé sur l’attention auto-associative, qui a tendance à privilégier les dépendances à longue portée et à grande échelle, tout en manquant d’efficacité pour modéliser les motifs récurrents à petite échelle. Dans cet article, nous introduisons un nouveau modèle hybride capable de capturer à la fois les dépendances à longue portée et à grande échelle ainsi que les motifs récurrents à petite échelle, en intégrant un module récurrent dans le cadre de MossFormer. Contrairement aux réseaux de neurones récurrents (RNN) classiques utilisant des connexions récurrentes, nous proposons un module récurrent fondé sur un réseau de mémoire séquentielle à propagation avant (FSMN), considéré comme un réseau « sans RNN » en raison de sa capacité à capter des motifs récurrents sans recourir à des connexions récurrentes. Ce module récurrent repose principalement sur un bloc FSMN amélioré utilisant des unités de convolution à portes (GCU) et des connexions denses. En outre, une couche d’entonnoir (bottleneck) et une couche de sortie sont ajoutées pour contrôler le flux d’information. Le module récurrent s’appuie sur des projections linéaires et des convolutions pour permettre un traitement fluide et parallèle de toute la séquence. Le modèle hybride intégré, MossFormer2, démontre des améliorations significatives par rapport à MossFormer et surpasser d’autres méthodes de pointe sur les benchmarks WSJ0-2/3mix, Libri2Mix et WHAM!/WHAMR! (https://github.com/modelscope/ClearerVoice-Studio).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MossFormer2 : Intégration du Transformer et d'un réseau récurrent sans RNN pour une séparation de parole monaurale en domaine temporel améliorée | Articles | HyperAI