Génération de musique simple et contrôlable

Nous abordons la tâche de génération conditionnelle de musique. Nous présentons MusicGen, un modèle linguistique (LM) unique qui opère sur plusieurs flux de représentation musicale discrète compressée, c'est-à-dire des jetons. Contrairement aux travaux antérieurs, MusicGen est composé d'un modèle linguistique transformer à une seule étape associé à des schémas d'entrelacement de jetons efficaces, ce qui élimine la nécessité d'enchaîner plusieurs modèles, par exemple hiérarchiquement ou par échantillonnage progressif. En suivant cette approche, nous démontrons comment MusicGen peut générer des échantillons de haute qualité, tant en mono qu'en stéréo, tout en étant conditionné par une description textuelle ou des caractéristiques mélodiques, permettant ainsi un meilleur contrôle sur la sortie générée. Nous menons une évaluation empirique approfondie, en prenant en compte à la fois des études automatiques et humaines, montrant que l'approche proposée est supérieure aux méthodes de référence évaluées sur un banc d'évaluation standard texte-à-musique. À travers des études d'ablation, nous mettons en lumière l'importance de chacun des composants constituant MusicGen. Des échantillons musicaux, du code et des modèles sont disponibles à l'adresse suivante : https://github.com/facebookresearch/audiocraft