HyperAIHyperAI

Command Palette

Search for a command to run...

Make-An-Audio: Text-zu-Audio-Generierung mit promptverstärkten Diffusionsmodellen

Rongjie Huang Jiawei Huang Dongchao Yang Yi Ren Luping Liu Mingze Li Zhenhui Ye Jinglin Liu Xiang Yin Zhou Zhao

Zusammenfassung

Großskalige multimodale generative Modellierung hat Meilensteine in der Text-zu-Bild- und Text-zu-Video-Generierung erreicht. Ihre Anwendung im Bereich Audio bleibt jedoch hinterher, hauptsächlich aufgrund zweier Faktoren: des Mangels an großen, hochwertigen Datensätzen mit Text-Audio-Paaren sowie der Komplexität der Modellierung langer, kontinuierlicher Audio-Daten. In dieser Arbeit präsentieren wir Make-An-Audio, ein mit Prompt-Enhancement ausgestattetes Diffusionsmodell, das diese Lücken adressiert durch (1) die Einführung einer pseudo-Prompt-Verstärkung mittels eines „Distill-then-Reprogram“-Ansatzes, welcher die Datenknappheit durch Größenordnungen erhöhte Konzeptzusammensetzungen überwindet, indem sprachfreie Audiodaten genutzt werden; und (2) die Nutzung eines Spektrogramm-Autoencoders zur Vorhersage von selbstüberwachten Audio-Repräsentationen anstelle von Waveform-Daten. In Kombination mit robusten, kontrastiven Sprache-Audio-Vortrainingsrepräsentationen (CLAP) erreicht Make-An-Audio state-of-the-art-Ergebnisse sowohl in objektiven als auch in subjektiven Benchmark-Evaluationen. Darüber hinaus demonstrieren wir die Kontrollierbarkeit und Generalisierbarkeit von X-to-Audio unter dem Prinzip „No Modality Left Behind“ – erstmals ermöglicht dies die Generierung hochauflösender, hochfidelitätsreicher Audiodaten basierend auf einer vom Nutzer definierten Eingabemodalität. Audio-Beispiele sind unter https://Text-to-Audio.github.io verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp