Séparation universelle de sources sonores efficace en calcul et en mémoire

Les avancées récentes dans la séparation de sources audio, portées par l'apprentissage profond, ont permis à de nombreux modèles de réseaux de neurones de proposer des solutions robustes à ce problème fondamental d'estimation. Dans cette étude, nous introduisons une famille d'architectures de réseaux de neurones efficaces destinées à la séparation audio généraliste, tout en mettant l'accent sur divers aspects computationnels qui entravent l'application des réseaux de neurones dans des scénarios du monde réel. La structure centrale de ce réseau convolutif repose sur le mécanisme de SUccessive DOwnsampling and Resampling of Multi-Resolution Features (SuDoRM-RF), ainsi que sur son agrégation réalisée via des convolutions unidimensionnelles simples. Ce mécanisme permet à nos modèles d'obtenir une séparation de signaux de haute fidélité dans une large variété de configurations, même lorsque le nombre de sources varie et que les ressources computationnelles sont limitées (par exemple, nombre d'opérations en virgule flottante, empreinte mémoire, nombre de paramètres et latence). Nos expériences montrent que les modèles SuDoRM-RF atteignent des performances comparables, voire supérieures, à plusieurs états de l'art, tout en nécessitant des ressources computationnelles significativement moindres. La variante causale de SuDoRM-RF parvient à des performances compétitives dans la séparation en temps réel de paroles, avec une amélioration de l'indice SI-SDRi (signal-to-distortion ratio invariant à l'échelle) d'environ 10 dB, tout en restant jusqu'à 20 fois plus rapide que le temps réel sur un appareil portable.