Extraction en temps réel du son cible

Nous présentons le premier modèle de réseau neuronal capable d'extraire en temps réel et en flux continu un son cible. Pour réaliser cet objectif, nous proposons Waveformer, une architecture encodeur-décodeur dotée d'une pile de couches de convolution causale dilatée en tant qu'encodeur, et d'une couche décodeuse basée sur un transformer en tant que décodeur. Cette architecture hybride utilise des convolutions causales dilatées pour traiter des champs récepteurs larges de manière calculatoirement efficace tout en exploitant les performances de généralisation des architectures basées sur les transformers. Nos évaluations montrent une amélioration de 2,2 à 3,3 dB en termes de SI-SNRi par rapport aux modèles précédents pour cette tâche, tout en ayant une taille de modèle 1,2 à 4 fois plus petite et un temps d'exécution 1,5 à 2 fois inférieur. Nous mettons à disposition le code source, le jeu de données et des exemples audio : https://waveformer.cs.washington.edu/.