ACE-Step : Modèle De Base Pour La Génération Musicale

1. Introduction au tutoriel

Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.
ACE-Step-v1-3.5B a été développé conjointement par la société d'intelligence artificielle StepFun et la plateforme de musique numérique ACE Studio et a été open source le 7 mai 2025. Le modèle peut synthétiser jusqu'à 4 minutes de musique en seulement 20 secondes sur un GPU A100, 15 fois plus rapidement qu'une base de référence basée sur LLM, tout en obtenant une cohérence musicale et un alignement lyrique supérieurs en termes de métriques mélodiques, harmoniques et rythmiques. De plus, le modèle préserve les détails acoustiques fins, permettant des mécanismes de contrôle avancés tels que le clonage de voix, l'édition de paroles, le remixage et la génération de pistes.
2. Fonctions principales

Styles et genres divers
- Prend en charge tous les styles de musique courants et peut être saisi sous diverses formes telles que des balises courtes/texte de description/scénarios d'utilisation
- Peut adapter automatiquement les combinaisons d'instruments et les caractéristiques de style en fonction de différents types (tels que le saxophone standard de jazz et le rythme swing)
Prise en charge multilingue
- Prend en charge 19 langues de saisie, les 10 principales langues incluent : 🇺🇸 anglais, 🇨🇳 chinois, 🇷🇺 russe, 🇪🇸 espagnol, 🇯🇵 japonais, 🇩🇪 allemand, 🇫🇷 français, 🇵🇹 portugais, 🇮🇹 italien, 🇰🇷 coréen
Expression instrumentale
- Prend en charge la génération instrumentale intergenre et peut restaurer avec précision les caractéristiques du timbre des instruments de musique (comme la résonance de la pédale de piano et le bruit de glissement de la guitare)
- Générer de la musique multipiste avec des arrangements complexes, en maintenant l'harmonie et l'unité rythmique entre les parties
- S'adapte automatiquement aux techniques de jeu des instruments (comme le vibrato des cordes, le coup de langue des cuivres)
Expressivité vocale
- Prend en charge plusieurs styles de chant (chant populaire, bel canto, chant d'opéra, etc.)
- Capacité à contrôler l'intensité de l'expression émotionnelle (par exemple, chant grave supprimé par rapport à des notes aiguës explosives)
3. Étapes de l'opération
1. Démarrez le conteneur
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Exemples d'utilisation
Directives d'utilisation
Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.
Le projet fournit des panneaux de création multitâches : onglet Text2Music, onglet Retake, onglet Repainting, onglet Edit et onglet Extend.
Les fonctions de chaque module sont les suivantes :
Onglet Text2Music
- Champs de saisie
- Mots-clés : saisissez des mots-clés descriptifs, des genres musicaux ou des descriptions de scènes, séparés par des virgules
- Paroles : Saisissez les paroles avec des balises de structure, telles que [couplet], [refrain], [pont]
- Durée audio : définissez la durée de l'audio généré (-1 signifie une génération aléatoire)
- Paramètres
- Paramètres de base : ajustez le nombre d'étapes d'inférence, le ratio de guidage et la valeur de départ
- Paramètres avancés : ajustez le type de planificateur, le type CFG, les paramètres ERG et d'autres paramètres
- Génération
- Cliquez sur le bouton « Générer » pour créer de la musique basée sur le contenu d'entrée


Générer des résultats

Onglet Reprendre
- Régénérer la musique avec différentes valeurs de départ et produire de légères variations
- Ajustez les paramètres de variation pour contrôler dans quelle mesure la nouvelle version diffère de l'original

Onglet Repeindre
- Régénérer sélectivement des passages spécifiques de musique
- Spécifiez l'heure de début et de fin du segment à régénérer
- Sélectionnez la source audio (text2music, last_repaint ou upload)

Onglet Modifier
- Adaptez la musique existante en modifiant les tablatures ou les paroles
- Vous pouvez choisir entre le mode « only_lyrics » (conserver la mélodie originale) ou le mode « remix » (changer la mélodie)
- Contrôlez le degré de préservation de la chanson originale en ajustant les paramètres d'édition

Étendre l'onglet
- Ajouter un morceau de musique au début ou à la fin d'une musique existante
- Spécifiez la durée d'extension sur les côtés gauche et droit
- Sélectionnez la source audio qui doit être développée

4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Merci à l'utilisateur Github SuperYang Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :
@misc{gong2025acestep,
title={ACE-Step: A Step Towards Music Generation Foundation Model},
author={Junmin Gong, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
howpublished={\url{https://github.com/ace-step/ACE-Step}},
year={2025},
note={GitHub repository}
}