QA-MDT: Qualitätsbewusster maskierter Diffusions-Transformer für verbesserte Musikgenerierung

Die Text-to-Music (TTM)-Generierung, die textuelle Beschreibungen in Audio umwandelt, eröffnet innovative Möglichkeiten für die Erstellung von Multimedia-Inhalten. Um hohe Qualität und Vielfalt in diesem Prozess zu erreichen, sind umfangreiche, hochwertige Daten erforderlich, die in den verfügbaren Datensätzen oft knapp sind. Die meisten Open-Source-Datensätze leiden häufig an Problemen wie schlechten Waveformen und geringer Text-Audio-Konsistenz, was die Weiterentwicklung von Musikgenerierungsmodellen behindert. Um diesen Herausforderungen entgegenzutreten, schlagen wir ein neues qualitätsbewusstes Trainingsparadigma vor, das es ermöglicht, aus großen, qualitativ ungleichmäßigen Datensätzen hochwertige und musikalisch ansprechende Musik zu generieren. Zudem nutzen wir einzigartige Eigenschaften im latenten Raum musikalischer Signale und passen ein Masked Diffusion Transformer (MDT)-Modell für die TTM-Aufgabe an, wodurch dessen Fähigkeit zur Qualitätskontrolle und zur Verbesserung der Musikalität demonstriert wird. Darüber hinaus stellen wir einen dreistufigen Ansatz zur Verfeinerung von Captions vor, um das Problem von niedriger Caption-Qualität anzugehen. Experimente zeigen eine Stand-of-the-Art-(SOTA)-Leistung auf Benchmark-Datensätzen wie MusicCaps und dem Song-Describer-Datensatz sowohl nach objektiven als auch nach subjektiven Metriken. Demo-Audiosamples sind unter https://qa-mdt.github.io/ verfügbar; Code und vortrainierte Checkpoints werden unter https://github.com/ivcylc/OpenMusic offen veröffentlicht.