Réseau Transformer à voies doubles : modélisation directe sensible au contexte pour la séparation monaurale en bout en bout

Les modèles dominants de séparation vocale reposent sur des réseaux de neurones récurrents ou convolutifs complexes, qui modélisent les séquences vocales de manière indirecte en conditionnant sur le contexte, par exemple en transmettant des informations à travers de nombreux états intermédiaires dans un réseau de neurones récurrents, ce qui entraîne des performances de séparation sous-optimales. Dans cet article, nous proposons un réseau transformer à double voie (DPTNet) pour la séparation vocale en bout à bout, introduisant une prise en compte directe du contexte dans la modélisation des séquences vocales. En intégrant un transformer amélioré, les éléments des séquences vocales peuvent interagir directement, permettant ainsi à DPTNet de modéliser les séquences vocales avec une conscience directe du contexte. Le transformer amélioré de notre approche apprend l’information d’ordre des séquences vocales sans recourir à des encodages de position en intégrant un réseau de neurones récurrents dans le transformer original. En outre, la structure à double voie rend notre modèle particulièrement efficace pour la modélisation de séquences vocales extrêmement longues. Des expériences étendues sur des jeux de données standard montrent que notre approche surpasser les états de l’art actuels (20,6 dB de SDR sur le corpus public WSj0-2mix).