HyperAIHyperAI

Command Palette

Search for a command to run...

QA-MDT : Transformateur de diffusion masquée sensible à la qualité pour une génération musicale améliorée

Chang Li* Ruoyu Wang* Lijuan Liu Jun Du† Yixuan Sun Zilu Guo Zhengrong Zhang Yuan Jiang Jianqing Gao Feng Ma

Résumé

La génération de musique à partir de texte (TTM), qui convertit des descriptions textuelles en audio, ouvre de nouvelles voies innovantes pour la création multimédia. Atteindre une haute qualité et une grande diversité dans ce processus nécessite des données de grande qualité et en grande quantité, qui sont souvent rares dans les jeux de données disponibles. La plupart des jeux de données open source souffrent fréquemment de problèmes tels que des formes d'onde de faible qualité et une faible cohérence entre le texte et l'audio, freinant ainsi l'avancement des modèles de génération musicale. Pour relever ces défis, nous proposons un nouveau paradigme d'entraînement prenant en compte la qualité, visant à générer une musique de haute qualité et hautement musicale à partir de jeux de données à grande échelle mais déséquilibrés en termes de qualité. De plus, en exploitant les propriétés uniques de l'espace latent des signaux musicaux, nous adaptons et mettons en œuvre un modèle transformer à diffusion masquée (MDT) pour la tâche TTM, démontrant sa capacité à contrôler la qualité et à améliorer la musicalité. Nous introduisons également une approche en trois étapes pour affiner les légendes, afin d'aborder le problème des légendes de faible qualité. Les expériences montrent des performances d'état de l'art (SOTA) sur des jeux de données de référence tels que MusicCaps et le Song-Describer Dataset, tant selon des métriques objectives que subjectives. Des exemples audio démonstratifs sont disponibles sur https://qa-mdt.github.io/, tandis que le code source et les points d'ancrage pré-entraînés sont mis à disposition sous licence open source sur https://github.com/ivcylc/OpenMusic.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp