HyperAIHyperAI

Command Palette

Search for a command to run...

QA-MDT: Qualitätsbewusster maskierter Diffusions-Transformer für verbesserte Musikgenerierung

Chang Li* Ruoyu Wang* Lijuan Liu Jun Du† Yixuan Sun Zilu Guo Zhengrong Zhang Yuan Jiang Jianqing Gao Feng Ma

Zusammenfassung

Die Text-to-Music (TTM)-Generierung, die textuelle Beschreibungen in Audio umwandelt, eröffnet innovative Möglichkeiten für die Erstellung von Multimedia-Inhalten. Um hohe Qualität und Vielfalt in diesem Prozess zu erreichen, sind umfangreiche, hochwertige Daten erforderlich, die in den verfügbaren Datensätzen oft knapp sind. Die meisten Open-Source-Datensätze leiden häufig an Problemen wie schlechten Waveformen und geringer Text-Audio-Konsistenz, was die Weiterentwicklung von Musikgenerierungsmodellen behindert. Um diesen Herausforderungen entgegenzutreten, schlagen wir ein neues qualitätsbewusstes Trainingsparadigma vor, das es ermöglicht, aus großen, qualitativ ungleichmäßigen Datensätzen hochwertige und musikalisch ansprechende Musik zu generieren. Zudem nutzen wir einzigartige Eigenschaften im latenten Raum musikalischer Signale und passen ein Masked Diffusion Transformer (MDT)-Modell für die TTM-Aufgabe an, wodurch dessen Fähigkeit zur Qualitätskontrolle und zur Verbesserung der Musikalität demonstriert wird. Darüber hinaus stellen wir einen dreistufigen Ansatz zur Verfeinerung von Captions vor, um das Problem von niedriger Caption-Qualität anzugehen. Experimente zeigen eine Stand-of-the-Art-(SOTA)-Leistung auf Benchmark-Datensätzen wie MusicCaps und dem Song-Describer-Datensatz sowohl nach objektiven als auch nach subjektiven Metriken. Demo-Audiosamples sind unter https://qa-mdt.github.io/ verfügbar; Code und vortrainierte Checkpoints werden unter https://github.com/ivcylc/OpenMusic offen veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp