HyperAIHyperAI
vor 2 Monaten

WaveNet: Ein generatives Modell für Rohaudio

Aaron van den Oord; Sander Dieleman; Heiga Zen; Karen Simonyan; Oriol Vinyals; Alex Graves; Nal Kalchbrenner; Andrew Senior; Koray Kavukcuoglu
WaveNet: Ein generatives Modell für Rohaudio
Abstract

Dieses Papier stellt WaveNet vor, ein tiefes neuronales Netzwerk zur Generierung von Roh-Audio-Waveformen. Das Modell ist vollständig wahrscheinlichkeitsbasiert und autoregressiv, wobei die prädiktive Verteilung für jedes Audio-Sample anhand aller vorherigen Samples konditioniert wird; dennoch zeigen wir, dass es effizient auf Daten trainiert werden kann, die Tausende von Samples pro Sekunde enthalten. Bei der Anwendung auf Text-zu-Sprache-Erzeugung erreicht es Stand-der-Technik-Leistungen, wobei menschliche Tester es als signifikant natürlicher klingend bewerten als die besten parametrischen und konkatenativen Systeme sowohl für Englisch als auch für Mandarin. Ein einzelnes WaveNet kann die Eigenschaften vieler verschiedener Sprecher mit gleicher Genauigkeit erfassen und zwischen ihnen durch Konditionierung auf die Sprecheridentität wechseln. Wenn es zum Modellieren von Musik trainiert wird, stellen wir fest, dass es neue und oft hochrealistische musikalische Fragmente erzeugt. Wir zeigen außerdem, dass es als diskriminatives Modell eingesetzt werden kann und vielversprechende Ergebnisse bei der Phonemerkennung liefert.

WaveNet: Ein generatives Modell für Rohaudio | Neueste Forschungsarbeiten | HyperAI