HyperAIHyperAI
il y a 2 mois

QA-MDT : Transformateur de diffusion masquée sensible à la qualité pour une génération musicale améliorée

Li, Chang ; Wang, Ruoyu ; Liu, Lijuan ; Du, Jun ; Sun, Yixuan ; Guo, Zilu ; Zhang, Zhenrong ; Jiang, Yuan ; Gao, Jianqing ; Ma, Feng
QA-MDT : Transformateur de diffusion masquée sensible à la qualité pour une génération musicale améliorée
Résumé

La génération de musique à partir de texte (TTM), qui convertit des descriptions textuelles en audio, ouvre de nouvelles voies innovantes pour la création multimédia. Atteindre une haute qualité et une grande diversité dans ce processus nécessite des données de grande qualité et en grande quantité, qui sont souvent rares dans les jeux de données disponibles. La plupart des jeux de données open source souffrent fréquemment de problèmes tels que des formes d'onde de faible qualité et une faible cohérence entre le texte et l'audio, freinant ainsi l'avancement des modèles de génération musicale. Pour relever ces défis, nous proposons un nouveau paradigme d'entraînement prenant en compte la qualité, visant à générer une musique de haute qualité et hautement musicale à partir de jeux de données à grande échelle mais déséquilibrés en termes de qualité. De plus, en exploitant les propriétés uniques de l'espace latent des signaux musicaux, nous adaptons et mettons en œuvre un modèle transformer à diffusion masquée (MDT) pour la tâche TTM, démontrant sa capacité à contrôler la qualité et à améliorer la musicalité. Nous introduisons également une approche en trois étapes pour affiner les légendes, afin d'aborder le problème des légendes de faible qualité. Les expériences montrent des performances d'état de l'art (SOTA) sur des jeux de données de référence tels que MusicCaps et le Song-Describer Dataset, tant selon des métriques objectives que subjectives. Des exemples audio démonstratifs sont disponibles sur https://qa-mdt.github.io/, tandis que le code source et les points d'ancrage pré-entraînés sont mis à disposition sous licence open source sur https://github.com/ivcylc/OpenMusic.

QA-MDT : Transformateur de diffusion masquée sensible à la qualité pour une génération musicale améliorée | Articles de recherche récents | HyperAI