Command Palette
Search for a command to run...
Make-An-Audio: Text-zu-Audio-Generierung mit promptverstärkten Diffusionsmodellen
Make-An-Audio: Text-zu-Audio-Generierung mit promptverstärkten Diffusionsmodellen
Rongjie Huang Jiawei Huang Dongchao Yang Yi Ren Luping Liu Mingze Li Zhenhui Ye Jinglin Liu Xiang Yin Zhou Zhao
Zusammenfassung
Großskalige multimodale generative Modellierung hat Meilensteine in der Text-zu-Bild- und Text-zu-Video-Generierung erreicht. Ihre Anwendung im Bereich Audio bleibt jedoch hinterher, hauptsächlich aufgrund zweier Faktoren: des Mangels an großen, hochwertigen Datensätzen mit Text-Audio-Paaren sowie der Komplexität der Modellierung langer, kontinuierlicher Audio-Daten. In dieser Arbeit präsentieren wir Make-An-Audio, ein mit Prompt-Enhancement ausgestattetes Diffusionsmodell, das diese Lücken adressiert durch (1) die Einführung einer pseudo-Prompt-Verstärkung mittels eines „Distill-then-Reprogram“-Ansatzes, welcher die Datenknappheit durch Größenordnungen erhöhte Konzeptzusammensetzungen überwindet, indem sprachfreie Audiodaten genutzt werden; und (2) die Nutzung eines Spektrogramm-Autoencoders zur Vorhersage von selbstüberwachten Audio-Repräsentationen anstelle von Waveform-Daten. In Kombination mit robusten, kontrastiven Sprache-Audio-Vortrainingsrepräsentationen (CLAP) erreicht Make-An-Audio state-of-the-art-Ergebnisse sowohl in objektiven als auch in subjektiven Benchmark-Evaluationen. Darüber hinaus demonstrieren wir die Kontrollierbarkeit und Generalisierbarkeit von X-to-Audio unter dem Prinzip „No Modality Left Behind“ – erstmals ermöglicht dies die Generierung hochauflösender, hochfidelitätsreicher Audiodaten basierend auf einer vom Nutzer definierten Eingabemodalität. Audio-Beispiele sind unter https://Text-to-Audio.github.io verfügbar.