Make-An-Audio: Text-zu-Audio-Generierung mit promptverstärkten Diffusionsmodellen

Großskalige multimodale generative Modellierung hat Meilensteine in der Text-zu-Bild- und Text-zu-Video-Generierung erreicht. Ihre Anwendung im Bereich Audio bleibt jedoch hinterher, hauptsächlich aufgrund zweier Faktoren: des Mangels an großen, hochwertigen Datensätzen mit Text-Audio-Paaren sowie der Komplexität der Modellierung langer, kontinuierlicher Audio-Daten. In dieser Arbeit präsentieren wir Make-An-Audio, ein mit Prompt-Enhancement ausgestattetes Diffusionsmodell, das diese Lücken adressiert durch (1) die Einführung einer pseudo-Prompt-Verstärkung mittels eines „Distill-then-Reprogram“-Ansatzes, welcher die Datenknappheit durch Größenordnungen erhöhte Konzeptzusammensetzungen überwindet, indem sprachfreie Audiodaten genutzt werden; und (2) die Nutzung eines Spektrogramm-Autoencoders zur Vorhersage von selbstüberwachten Audio-Repräsentationen anstelle von Waveform-Daten. In Kombination mit robusten, kontrastiven Sprache-Audio-Vortrainingsrepräsentationen (CLAP) erreicht Make-An-Audio state-of-the-art-Ergebnisse sowohl in objektiven als auch in subjektiven Benchmark-Evaluationen. Darüber hinaus demonstrieren wir die Kontrollierbarkeit und Generalisierbarkeit von X-to-Audio unter dem Prinzip „No Modality Left Behind“ – erstmals ermöglicht dies die Generierung hochauflösender, hochfidelitätsreicher Audiodaten basierend auf einer vom Nutzer definierten Eingabemodalität. Audio-Beispiele sind unter https://Text-to-Audio.github.io verfügbar.