HyperAIHyperAI
il y a 2 mois

WaveNet : Un modèle génératif pour l'audio brut

Aaron van den Oord; Sander Dieleman; Heiga Zen; Karen Simonyan; Oriol Vinyals; Alex Graves; Nal Kalchbrenner; Andrew Senior; Koray Kavukcuoglu
WaveNet : Un modèle génératif pour l'audio brut
Résumé

Ce document présente WaveNet, un réseau neuronal profond destiné à la génération de formes d'onde audio brutes. Le modèle est entièrement probabiliste et autorégressif, avec une distribution prédictive pour chaque échantillon audio conditionnée par tous les échantillons précédents ; cependant, nous montrons qu'il peut être entraîné efficacement sur des données comportant des dizaines de milliers d'échantillons par seconde d'audio. Lorsqu'il est appliqué à la synthèse vocale (text-to-speech), il offre des performances de pointe, les auditeurs humains le jugeant significativement plus naturel que les meilleurs systèmes paramétriques et concaténatifs pour l'anglais et le mandarin. Un seul WaveNet peut capturer les caractéristiques de nombreux locuteurs différents avec une fidélité égale, et peut basculer entre eux en conditionnant sur l'identité du locuteur. Lorsqu'il est entraîné pour modéliser la musique, nous constatons qu'il génère des fragments musicaux nouveaux et souvent très réalistes. Nous montrons également qu'il peut être utilisé comme modèle discriminatif, fournissant des résultats prometteurs pour la reconnaissance des phonèmes.

WaveNet : Un modèle génératif pour l'audio brut | Articles de recherche récents | HyperAI