TF-Locoformer : Transformer avec Modélisation Locale par Convolution pour la Séparation et l'Amélioration de la Parole

Les modèles à double voie dans le domaine temps-fréquence (TF) atteignent une séparation vocale de haute fidélité. Bien que certains modèles d'avant-garde précédents (SoTA) s'appuient sur des réseaux de neurones récurrents (RNN), cette dépendance signifie qu'ils manquent de la parallélisabilité, de l'évolutivité et de la polyvalence des blocs Transformer. Étant donné les succès variés des architectures purement basées sur les Transformers dans d'autres domaines, ce travail se concentre sur l'élimination des RNN des modèles à double voie dans le domaine TF tout en maintenant les performances SoTA. Ce travail présente TF-Locoformer, un modèle basé sur les Transformers avec une modélisation locale par convolution (LOcal-modeling by COnvolution). Le modèle utilise des réseaux de neurones à propagation avant (FFNs) avec des couches de convolution, au lieu de couches linéaires, pour capturer les informations locales, permettant ainsi à l'auto-attention de se concentrer sur la capture de motifs globaux. Nous plaçons deux tels FFNs avant et après l'auto-attention pour renforcer la capacité de modélisation locale. Nous introduisons également une nouvelle normalisation pour les modèles à double voie dans le domaine TF. Les expériences menées sur des ensembles de données de séparation et d'amélioration montrent que le modèle proposé répond ou dépasse les normes SoTA dans plusieurs benchmarks avec une architecture sans RNN.