il y a 15 jours

MossFormer2 : Intégration du Transformer et d'un réseau récurrent sans RNN pour une séparation de parole monaurale en domaine temporel améliorée

Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Jiaqi Yip, Dianwen Ng, Bin Ma

Résumé

Notre modèle précédemment proposé, MossFormer, a obtenu des performances prometteuses dans la séparation de parole monaurale. Toutefois, il repose principalement sur un module MossFormer basé sur l’attention auto-associative, qui a tendance à privilégier les dépendances à longue portée et à grande échelle, tout en manquant d’efficacité pour modéliser les motifs récurrents à petite échelle. Dans cet article, nous introduisons un nouveau modèle hybride capable de capturer à la fois les dépendances à longue portée et à grande échelle ainsi que les motifs récurrents à petite échelle, en intégrant un module récurrent dans le cadre de MossFormer. Contrairement aux réseaux de neurones récurrents (RNN) classiques utilisant des connexions récurrentes, nous proposons un module récurrent fondé sur un réseau de mémoire séquentielle à propagation avant (FSMN), considéré comme un réseau « sans RNN » en raison de sa capacité à capter des motifs récurrents sans recourir à des connexions récurrentes. Ce module récurrent repose principalement sur un bloc FSMN amélioré utilisant des unités de convolution à portes (GCU) et des connexions denses. En outre, une couche d’entonnoir (bottleneck) et une couche de sortie sont ajoutées pour contrôler le flux d’information. Le module récurrent s’appuie sur des projections linéaires et des convolutions pour permettre un traitement fluide et parallèle de toute la séquence. Le modèle hybride intégré, MossFormer2, démontre des améliorations significatives par rapport à MossFormer et surpasser d’autres méthodes de pointe sur les benchmarks WSJ0-2/3mix, Libri2Mix et WHAM!/WHAMR! (https://github.com/modelscope/ClearerVoice-Studio).