HyperAIHyperAI

Command Palette

Search for a command to run...

Conv-TasNet inter-canaux pour l'amélioration de parole multicanal

Dongheon Lee Seongrae Kim Jung-Woo Choi

Résumé

L’amélioration de la parole dans les configurations multicanal a été réalisée en exploitant les informations spatiales intégrées dans les signaux provenant de plusieurs microphones. Par ailleurs, les réseaux de neurones profonds (DNN) ont récemment connu des avancées significatives dans ce domaine ; toutefois, les recherches visant à concevoir des architectures de réseaux multicanal efficaces, exploitant pleinement les informations spatiales et les relations inter-canaux, restent encore à un stade précoce. Dans cette étude, nous proposons un réseau d’amélioration de la parole en domaine temporel, entièrement end-to-end, capable d’exploiter les relations inter-canaux à chaque couche d’un DNN. La technique proposée repose sur un réseau entièrement convolutif pour la séparation audio en domaine temporel (Conv-TasNet), initialement conçu pour les tâches de séparation de parole. Nous étendons Conv-TasNet à plusieurs variantes capables de traiter des signaux d’entrée multicanal et d’apprendre les relations inter-canaux. À cette fin, nous adaptons les structures encodeur-masque-décodeur du réseau afin qu’elles soient compatibles avec des tenseurs 3D définis selon les dimensions spatiales, les caractéristiques et le temps. En particulier, nous menons une analyse approfondie des structures de convolution et proposons une affectation indépendante des couches de convolution séparable et de convolution 1×1 respectivement aux dimensions des caractéristiques et spatiales. Nous démontrons que l’information inter-canaux enrichie fournie par le réseau proposé joue un rôle essentiel dans la suppression des signaux bruyants provenant de différentes directions. Le Conv-TasNet inter-canaux proposé surpasser les variantes d’état de l’art des réseaux neuronaux multicanal, même avec une taille de paramètres réduite d’un facteur dix. La performance du modèle proposé est évaluée sur le jeu de données CHiME-3, montrant une amélioration notable en termes de SDR, PESQ et STOI.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Conv-TasNet inter-canaux pour l'amélioration de parole multicanal | Articles | HyperAI