HyperAIHyperAI

Command Palette

Search for a command to run...

Attention par canal Dense U-Net pour l'amélioration multicanale de la parole

Bahareh Tolooshams Ritwik Giri Andrew H. Song Umut Isik Arvindh Krishnaswamy

Résumé

L’apprentissage profond supervisé a récemment suscité un intérêt croissant pour l’amélioration de la parole. Les méthodes d’apprentissage profond les plus avancées accomplissent cette tâche en apprenant un masque rationnel ou binaire, appliqué au mélange dans le domaine temporel-fréquentiel afin de produire la parole nette. Bien que ces méthodes affichent de très bons résultats dans le cadre mono-canal, leur performance se dégrade dans le cadre multi-canaux, principalement parce que la majorité d’entre elles a) ne tirent pas pleinement parti de l’information spatiale disponible, et b) traitent encore l’architecture profonde comme une boîte noire, ce qui peut être peu adapté au traitement audio multi-canaux. Ce papier vise à remédier à ces limites : a) en introduisant un masquage rationnel complexe au lieu d’un masquage appliqué uniquement au module du spectrogramme, et plus important encore, b) en intégrant un mécanisme d’attention par canal à l’intérieur de l’architecture profonde, afin de mimétiser le beamforming. Nous proposons le Channel-Attention Dense U-Net, dans lequel l’unité d’attention par canal est appliquée de manière récursive sur les cartes de caractéristiques à chaque couche du réseau, permettant ainsi au réseau de réaliser un beamforming non linéaire. Nous démontrons la supériorité de ce réseau par rapport aux approches de pointe sur le jeu de données CHiME-3.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp