SampleRNN : Un modèle de génération audio neuronale inconditionnelle et de bout en bout

Dans cet article, nous proposons un nouveau modèle pour la génération inconditionnelle d'audio basé sur la production d'un échantillon sonore à la fois. Nous démontrons que notre modèle, qui tire profit de l'association de modules sans mémoire, notamment des perceptrons multicouches autorégressifs, et de réseaux neuronaux récurrents avec état dans une structure hiérarchique, est capable de capturer les sources sous-jacentes de variation dans les séquences temporelles sur des périodes très longues, sur trois ensembles de données de natures différentes. L'évaluation par des humains des échantillons générés indique que notre modèle est préféré aux modèles concurrents. Nous montrons également comment chaque composant du modèle contribue à la performance observée.