HyperAIHyperAI

Command Palette

Search for a command to run...

Extraction en temps réel du son cible

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

Résumé

Nous présentons le premier modèle de réseau neuronal capable d'extraire en temps réel et en flux continu un son cible. Pour réaliser cet objectif, nous proposons Waveformer, une architecture encodeur-décodeur dotée d'une pile de couches de convolution causale dilatée en tant qu'encodeur, et d'une couche décodeuse basée sur un transformer en tant que décodeur. Cette architecture hybride utilise des convolutions causales dilatées pour traiter des champs récepteurs larges de manière calculatoirement efficace tout en exploitant les performances de généralisation des architectures basées sur les transformers. Nos évaluations montrent une amélioration de 2,2 à 3,3 dB en termes de SI-SNRi par rapport aux modèles précédents pour cette tâche, tout en ayant une taille de modèle 1,2 à 4 fois plus petite et un temps d'exécution 1,5 à 2 fois inférieur. Nous mettons à disposition le code source, le jeu de données et des exemples audio : https://waveformer.cs.washington.edu/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp