Sur les modèles Conformer dans le domaine temporel pour la séparation de paroles monaurale dans des environnements acoustiques bruyants et réverbérants

La séparation de paroles reste un sujet crucial pour les chercheurs travaillant sur les technologies à plusieurs locuteurs. Les modèles de transformateurs augmentés par convolution (conformers) ont démontré de bonnes performances sur de nombreuses tâches de traitement du signal vocal, mais leur application à la séparation de paroles reste peu explorée. La plupart des modèles les plus récents et les plus performants (SOTA) pour la séparation de paroles reposent sur des réseaux de séparation audio en domaine temporel (TasNets). Certains modèles prometteurs ont mis à profit des architectures à chemins doubles (DP), qui traitent séquentiellement les informations locales et globales. Les conformers en domaine temporel (TD-Conformers) constituent une analogie de cette approche DP, puisqu’ils traitent également de manière séquentielle le contexte local et global, tout en présentant une complexité temporelle différente. Il est démontré que, pour des durées de signal réalistes et courtes, les conformers offrent une efficacité supérieure lorsqu’on compare les dimensions des caractéristiques. Des couches de sous-échantillonnage sont proposées afin d’améliorer davantage l’efficacité computationnelle. Le meilleur modèle TD-Conformer atteint une amélioration de 14,6 dB et 21,2 dB en SISDR sur les benchmarks WHAMR et WSJ0-2Mix, respectivement.