Génération efficace de musique neuronale

Les récentes avancées dans la génération de musique ont été remarquablement stimulées par le modèle d'avant-garde MusicLM, qui comprend une hiérarchie de trois modèles linguistiques (LMs), respectivement pour la modélisation sémantique, acoustique grossière et acoustique fine. Cependant, l'échantillonnage avec MusicLM nécessite un traitement séquentiel par ces LMs pour obtenir les tokens acoustiques fins, ce qui rend le processus coûteux en termes de calcul et peu adapté à la génération en temps réel. La génération efficace de musique avec une qualité équivalente à celle de MusicLM reste un défi majeur. Dans cet article, nous présentons MeLoDy (M pour musique ; L pour LM ; D pour diffusion), un modèle de diffusion guidé par un modèle linguistique qui génère des audios musicaux d'une qualité d'avant-garde tout en réduisant respectivement les passages avant de 95,7 % ou 99,6 % dans MusicLM pour l'échantillonnage de musiques de 10 secondes ou 30 secondes. MeLoDy hérite du modèle linguistique le plus élevé de MusicLM pour la modélisation sémantique et utilise un nouveau modèle de diffusion à double voie (DPD) et une VAE-GAN audio pour décoder efficacement les tokens sémantiques conditionnels en forme d'onde. Le DPD est conçu pour modéliser simultanément les caractéristiques acoustiques grossières et fines en intégrant efficacement les informations sémantiques dans des segments de latents via l'attention croisée à chaque étape de débruitage. Nos résultats expérimentaux indiquent la supériorité de MeLoDy, non seulement en termes d'avantages pratiques sur la vitesse d'échantillonnage et la possibilité de génération infiniment continue, mais aussi en termes de musicalité, qualité audio et corrélation textuelle d'avant-garde.Nos échantillons sont disponibles à l'adresse suivante : https://Efficient-MeLoDy.github.io/.