HyperAIHyperAI

Command Palette

Search for a command to run...

WaveNet: Ein generatives Modell für Rohaudio

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

Zusammenfassung

Dieses Papier stellt WaveNet vor, ein tiefes neuronales Netzwerk zur Generierung von Roh-Audio-Waveformen. Das Modell ist vollständig wahrscheinlichkeitsbasiert und autoregressiv, wobei die prädiktive Verteilung für jedes Audio-Sample anhand aller vorherigen Samples konditioniert wird; dennoch zeigen wir, dass es effizient auf Daten trainiert werden kann, die Tausende von Samples pro Sekunde enthalten. Bei der Anwendung auf Text-zu-Sprache-Erzeugung erreicht es Stand-der-Technik-Leistungen, wobei menschliche Tester es als signifikant natürlicher klingend bewerten als die besten parametrischen und konkatenativen Systeme sowohl für Englisch als auch für Mandarin. Ein einzelnes WaveNet kann die Eigenschaften vieler verschiedener Sprecher mit gleicher Genauigkeit erfassen und zwischen ihnen durch Konditionierung auf die Sprecheridentität wechseln. Wenn es zum Modellieren von Musik trainiert wird, stellen wir fest, dass es neue und oft hochrealistische musikalische Fragmente erzeugt. Wir zeigen außerdem, dass es als diskriminatives Modell eingesetzt werden kann und vielversprechende Ergebnisse bei der Phonemerkennung liefert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WaveNet: Ein generatives Modell für Rohaudio | Paper | HyperAI