HyperAIHyperAI

Command Palette

Search for a command to run...

ETTA: Aufdecken des Designraums von Text-zu-Audio-Modellen

Lee Sang-gil ; Kong Zhifeng ; Goel Arushi ; Kim Sungwon ; Valle Rafael ; Catanzaro Bryan

Zusammenfassung

In den letzten Jahren wurde bei der Text-zu-Audio (TTA) Synthese erheblicher Fortschritt erzielt, wodurch Nutzer ihre kreativen Arbeitsabläufe mit synthetischem Audio bereichern können, das aus natürlichsprachlichen Anweisungen generiert wird. Trotz dieser Fortschritte sind die Auswirkungen von Daten, Modellarchitektur, Trainingsziel-Funktionen und Abtaststrategien auf die Zielbenchmarks noch nicht vollständig verstanden. Mit dem Ziel, ein umfassendes Verständnis des Designraums von TTA-Modellen zu bieten, haben wir ein groß angelegtes empirisches Experiment durchgeführt, das sich auf Diffusions- und Flussanpassungsmodelle konzentriert.Unsere Beiträge umfassen: 1) AF-Synthetisch, eine große Datensammlung hochwertiger synthetischer Beschriftungen, die aus einem Audio-Verständnismodell gewonnen wurden; 2) einen systematischen Vergleich verschiedener architektonischer, trainingsbezogener und inferenzorientierter Designentscheidungen für TTA-Modelle; 3) eine Analyse von Abtastmethoden und ihren Pareto-Kurven im Hinblick auf Generierungskualität und Inferenzgeschwindigkeit. Wir nutzen das Wissen aus dieser umfangreichen Analyse, um unser bestes Modell vorzuschlagen, das wir Elucidated Text-To-Audio (ETTA) genannt haben.Bei der Bewertung auf AudioCaps und MusicCaps bietet ETTA Verbesserungen gegenüber den Baseline-Modellen, die mit öffentlich zugänglichen Daten trainiert wurden, während es gleichzeitig mit Modellen mithalten kann, die mit proprietären Daten trainiert wurden. Schließlich zeigen wir die verbesserte Fähigkeit von ETTA, kreative Audioinhalte auf Basis komplexer und fantasievoller Beschriftungen zu generieren – eine Aufgabe, die anspruchsvoller ist als aktuelle Benchmarks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp