il y a 7 mois

Résumé

Le traitement robuste de la parole dans des environnements à plusieurs locuteurs nécessite une séparation efficace de la parole. Bien que les systèmes d'apprentissage profond récents aient fait des progrès significatifs pour résoudre ce problème, il reste particulièrement difficile, notamment dans les applications en temps réel et à faible latence. La plupart des méthodes tentent de construire un masque pour chaque source dans la représentation temporelle-fréquentielle du signal mixte, ce qui n'est pas nécessairement une représentation optimale pour la séparation de la parole. De plus, la décomposition temporelle-fréquentielle entraîne des problèmes inhérents tels que le découplage phase/amplitude et l'utilisation d'une fenêtre temporelle longue, requise pour obtenir une résolution fréquentielle suffisante. Nous proposons le réseau de séparation audio dans le domaine temporel (Time-domain Audio Separation Network, TasNet) pour surmonter ces limitations. Nous modélisons directement le signal dans le domaine temporel en utilisant un cadre encodeur-décodeur et effectuons la séparation des sources sur les sorties non négatives de l'encodeur. Cette méthode élimine l'étape de décomposition fréquentielle et réduit le problème de séparation à l'estimation des masques sources sur les sorties de l'encodeur, qui sont ensuite synthétisées par le décodeur. Notre système surpasses les algorithmes actuels de séparation vocale causale et non causale, réduit le coût computationnel de la séparation vocale et diminue considérablement la latence minimale requise pour la sortie. Cela rend TasNet approprié pour les applications où une mise en œuvre à faible puissance et en temps réel est souhaitée, comme dans les appareils portables auditifs et les dispositifs de télécommunication.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Traitement Audio Et Vocal

Réseau De Neurones Convolutif

Apprentissage Profond

Yi Luo; Nima Mesgarani

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Traitement Audio Et Vocal

Réseau De Neurones Convolutif

Apprentissage Profond

Yi Luo; Nima Mesgarani

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

TasNet : réseau de séparation audio dans le domaine temporel pour la séparation en temps réel et à canal unique de la parole

Yi Luo; Nima Mesgarani

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TasNet : réseau de séparation audio dans le domaine temporel pour la séparation en temps réel et à canal unique de la parole

Yi Luo; Nima Mesgarani

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TasNet : réseau de séparation audio dans le domaine temporel pour la séparation en temps réel et à canal unique de la parole

Yi Luo; Nima Mesgarani

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters