Text To Music Generation On Musiccaps

FAD

Results

Performance results of various models on this benchmark

Model Name	FAD	Paper Title	Repository
Mubert	9.6	MusicLM: Generating Music From Text
Stable Audio Open	3.51	Stable Audio Open
TANGO-AF	2.21	Improving Text-To-Audio Models with Synthetic Captions
MusicLM	4.0	MusicLM: Generating Music From Text
AudioLDM 2-Full	3.13	AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
OpenMusic (QA-MDT)	1.65	Quality-aware Masked Diffusion Transformer for Enhanced Music Generation
Stable Audio	-	Fast Timing-Conditioned Latent Audio Diffusion
FLUXMusic	1.43	FLUX that Plays Music
Riffusion	13.4	MusicLM: Generating Music From Text
JEN-1	2.00	JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models
MusicGen w/ random melody (1.5B)	5.0	Simple and Controllable Music Generation
MeLFusion (image-conditioned)	1.12	MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models
Noise2Music waveform	2.134	Noise2Music: Text-conditioned Music Generation with Diffusion Models	-
AudioLDM2-music	-	AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
UniAudio	3.65	UniAudio: An Audio Foundation Model Toward Universal Audio Generation
AudioLDM2-large	2.93	AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
Noise2Music spectrogram	3.840	Noise2Music: Text-conditioned Music Generation with Diffusion Models	-
ETTA	1.91	ETTA: Elucidating the Design Space of Text-to-Audio Models
MusicGen w/o melody (3.3B)	3.8	Simple and Controllable Music Generation
MeLoDy	5.41	Efficient Neural Music Generation	-

0 of 21 row(s) selected.