HyperAI

Résumé

Nous présentons le premier modèle de réseau neuronal capable d'extraire en temps réel et en flux continu un son cible. Pour réaliser cet objectif, nous proposons Waveformer, une architecture encodeur-décodeur dotée d'une pile de couches de convolution causale dilatée en tant qu'encodeur, et d'une couche décodeuse basée sur un transformer en tant que décodeur. Cette architecture hybride utilise des convolutions causales dilatées pour traiter des champs récepteurs larges de manière calculatoirement efficace tout en exploitant les performances de généralisation des architectures basées sur les transformers. Nos évaluations montrent une amélioration de 2,2 à 3,3 dB en termes de SI-SNRi par rapport aux modèles précédents pour cette tâche, tout en ayant une taille de modèle 1,2 à 4 fois plus petite et un temps d'exécution 1,5 à 2 fois inférieur. Nous mettons à disposition le code source, le jeu de données et des exemples audio : https://waveformer.cs.washington.edu/.

Résumé

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Extraction en temps réel du son cible

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Extraction en temps réel du son cible

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Extraction en temps réel du son cible

Bandhav Veluri Justin Chan Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters