Un modèle de séparation de parole audio-visuelle inspiré des circuits cortico-thalamo-corticaux

Les approches audiovisuelles reposant sur des entrées visuelles ont posé les bases des progrès récents en séparation de parole. Toutefois, l’optimisation de l’utilisation simultanée des informations auditives et visuelles reste un domaine de recherche actif. Inspirés par le circuit cortico-thalamo-cortical, dans lequel les mécanismes de traitement sensoriel des différentes modalités s’influencent mutuellement via le noyau thalamique non-lemniscal, nous proposons un nouveau réseau neuronal cortico-thalamo-cortical (CTCNet) pour la séparation audiovisuelle de la parole (AVSS). Tout d’abord, le CTCNet apprend des représentations hiérarchiques auditives et visuelles de manière descendante, dans des sous-réseaux distincts dédiés à l’audition et à la vision, en imitant les fonctions des régions corticales auditives et visuelles. Ensuite, inspiré par le grand nombre de connexions entre les régions corticales et le thalamus, le modèle fusionne les informations auditives et visuelles dans un sous-réseau thalamique à travers des connexions ascendantes. Enfin, l’information fusionnée est transmise de retour vers les sous-réseaux auditif et visuel, et ce processus est répété plusieurs fois. Les résultats d’expériences sur trois jeux de données standard de séparation de parole montrent que le CTCNet surpasse de manière significative les méthodes AVSS existantes, tout en utilisant considérablement moins de paramètres. Ces résultats suggèrent que la mise en œuvre de l’architecture anatomique du connectome du cerveau mammalien présente un grand potentiel pour l’avancement du développement des réseaux neuronaux profonds. Le dépôt du projet est disponible à l’adresse suivante : https://github.com/JusperLee/CTCNet.