Réseaux Neuronaux Hybrides pour l'écoute directionnelle sur appareil

L'audition directionnelle sur appareil nécessite la séparation des sources sonores à partir d'une direction donnée tout en répondant à des exigences de latence imperceptible pour l'humain. Bien que les réseaux neuronaux puissent atteindre une performance significativement meilleure que celle des beamformers traditionnels, tous les modèles existants échouent à prendre en charge l'inférence causale à faible latence sur des wearables aux ressources computationnelles limitées. Nous présentons DeepBeam, un modèle hybride qui combine les beamformers traditionnels avec un réseau neuronal personnalisé et léger. Le premier réduit la charge computationnelle du second et améliore également sa capacité de généralisation, tandis que le second est conçu pour réduire davantage la consommation mémoire et la charge computationnelle, permettant ainsi des opérations en temps réel et à faible latence. Notre évaluation montre des performances comparables aux modèles d'inférence causale de pointe sur des données synthétiques, tout en réalisant une réduction de 5 fois de la taille du modèle, une diminution de 4 fois du nombre d'opérations par seconde, une réduction de 5 fois du temps de traitement et une meilleure généralisation aux données matérielles réelles. De plus, notre modèle hybride en temps réel s'exécute en 8 ms sur des CPU mobiles conçus pour les wearables à faible consommation d'énergie et atteint une latence globale de bout en bout de 17,5 ms.