RTFS-Net : Modélisation récurrente temps-fréquence pour une séparation audiovisuelle de la parole efficace

Les méthodes de séparation audiovisuelle de la parole visent à intégrer différentes modalités pour générer une parole séparée de haute qualité, améliorant ainsi les performances des tâches en aval telles que la reconnaissance vocale. La plupart des modèles d'avant-garde actuels (state-of-the-art, SOTA) fonctionnent dans le domaine temporel. Cependant, leur approche trop simpliste pour modéliser les caractéristiques acoustiques nécessite souvent des modèles plus grands et plus gourmands en ressources computationnelles afin d'atteindre les performances SOTA. Dans cet article, nous présentons une nouvelle méthode de séparation audiovisuelle de la parole dans le domaine temps-fréquence : le Réseau de Séparation Temporelle et Fréquentielle Récursif (Recurrent Time-Frequency Separation Network, RTFS-Net), qui applique ses algorithmes aux binômes complexes temps-fréquence produits par la Transformée de Fourier à Court Terme (Short-Time Fourier Transform, STFT). Nous modélisons et capturons les dimensions temporelle et fréquentielle du son indépendamment à l'aide d'un RNN multicouche le long de chaque dimension. De plus, nous introduisons une technique unique de fusion basée sur l'attention pour l'intégration efficace des informations audio et visuelles, ainsi qu'une nouvelle approche de séparation par masque qui tire parti de la nature spectrale intrinsèque des caractéristiques acoustiques pour une séparation plus claire. Le RTFS-Net surpasses la méthode SOTA précédente tant en termes de vitesse d'inférence que de qualité de séparation tout en réduisant le nombre de paramètres de 90 % et les opérations MACs (Multiply-Accumulate Operations) de 83 %. Il s'agit de la première méthode de séparation audiovisuelle de la parole dans le domaine temps-fréquence à surpasser tous ses homologues contemporains dans le domaine temporel.