HyperAIHyperAI

Command Palette

Search for a command to run...

Génération efficace de musique neuronale

Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang

Résumé

Les récentes avancées dans la génération de musique ont été remarquablement stimulées par le modèle d'avant-garde MusicLM, qui comprend une hiérarchie de trois modèles linguistiques (LMs), respectivement pour la modélisation sémantique, acoustique grossière et acoustique fine. Cependant, l'échantillonnage avec MusicLM nécessite un traitement séquentiel par ces LMs pour obtenir les tokens acoustiques fins, ce qui rend le processus coûteux en termes de calcul et peu adapté à la génération en temps réel. La génération efficace de musique avec une qualité équivalente à celle de MusicLM reste un défi majeur. Dans cet article, nous présentons MeLoDy (M pour musique ; L pour LM ; D pour diffusion), un modèle de diffusion guidé par un modèle linguistique qui génère des audios musicaux d'une qualité d'avant-garde tout en réduisant respectivement les passages avant de 95,7 % ou 99,6 % dans MusicLM pour l'échantillonnage de musiques de 10 secondes ou 30 secondes. MeLoDy hérite du modèle linguistique le plus élevé de MusicLM pour la modélisation sémantique et utilise un nouveau modèle de diffusion à double voie (DPD) et une VAE-GAN audio pour décoder efficacement les tokens sémantiques conditionnels en forme d'onde. Le DPD est conçu pour modéliser simultanément les caractéristiques acoustiques grossières et fines en intégrant efficacement les informations sémantiques dans des segments de latents via l'attention croisée à chaque étape de débruitage. Nos résultats expérimentaux indiquent la supériorité de MeLoDy, non seulement en termes d'avantages pratiques sur la vitesse d'échantillonnage et la possibilité de génération infiniment continue, mais aussi en termes de musicalité, qualité audio et corrélation textuelle d'avant-garde.Nos échantillons sont disponibles à l'adresse suivante : https://Efficient-MeLoDy.github.io/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp