HyperAIHyperAI

Command Palette

Search for a command to run...

WaveNet : Un modèle génératif pour l'audio brut

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

Résumé

Ce document présente WaveNet, un réseau neuronal profond destiné à la génération de formes d'onde audio brutes. Le modèle est entièrement probabiliste et autorégressif, avec une distribution prédictive pour chaque échantillon audio conditionnée par tous les échantillons précédents ; cependant, nous montrons qu'il peut être entraîné efficacement sur des données comportant des dizaines de milliers d'échantillons par seconde d'audio. Lorsqu'il est appliqué à la synthèse vocale (text-to-speech), il offre des performances de pointe, les auditeurs humains le jugeant significativement plus naturel que les meilleurs systèmes paramétriques et concaténatifs pour l'anglais et le mandarin. Un seul WaveNet peut capturer les caractéristiques de nombreux locuteurs différents avec une fidélité égale, et peut basculer entre eux en conditionnant sur l'identité du locuteur. Lorsqu'il est entraîné pour modéliser la musique, nous constatons qu'il génère des fragments musicaux nouveaux et souvent très réalistes. Nous montrons également qu'il peut être utilisé comme modèle discriminatif, fournissant des résultats prometteurs pour la reconnaissance des phonèmes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
WaveNet : Un modèle génératif pour l'audio brut | Articles | HyperAI