HyperAIHyperAI
il y a 2 mois

TasNet : réseau de séparation audio dans le domaine temporel pour la séparation en temps réel et à canal unique de la parole

Yi Luo; Nima Mesgarani
TasNet : réseau de séparation audio dans le domaine temporel pour la séparation en temps réel et à canal unique de la parole
Résumé

Le traitement robuste de la parole dans des environnements à plusieurs locuteurs nécessite une séparation efficace de la parole. Bien que les systèmes d'apprentissage profond récents aient fait des progrès significatifs pour résoudre ce problème, il reste particulièrement difficile, notamment dans les applications en temps réel et à faible latence. La plupart des méthodes tentent de construire un masque pour chaque source dans la représentation temporelle-fréquentielle du signal mixte, ce qui n'est pas nécessairement une représentation optimale pour la séparation de la parole. De plus, la décomposition temporelle-fréquentielle entraîne des problèmes inhérents tels que le découplage phase/amplitude et l'utilisation d'une fenêtre temporelle longue, requise pour obtenir une résolution fréquentielle suffisante. Nous proposons le réseau de séparation audio dans le domaine temporel (Time-domain Audio Separation Network, TasNet) pour surmonter ces limitations. Nous modélisons directement le signal dans le domaine temporel en utilisant un cadre encodeur-décodeur et effectuons la séparation des sources sur les sorties non négatives de l'encodeur. Cette méthode élimine l'étape de décomposition fréquentielle et réduit le problème de séparation à l'estimation des masques sources sur les sorties de l'encodeur, qui sont ensuite synthétisées par le décodeur. Notre système surpasses les algorithmes actuels de séparation vocale causale et non causale, réduit le coût computationnel de la séparation vocale et diminue considérablement la latence minimale requise pour la sortie. Cela rend TasNet approprié pour les applications où une mise en œuvre à faible puissance et en temps réel est souhaitée, comme dans les appareils portables auditifs et les dispositifs de télécommunication.

TasNet : réseau de séparation audio dans le domaine temporel pour la séparation en temps réel et à canal unique de la parole | Articles de recherche récents | HyperAI