ETTA: Aufdecken des Designraums von Text-zu-Audio-Modellen

In den letzten Jahren wurde bei der Text-zu-Audio (TTA) Synthese erheblicher Fortschritt erzielt, wodurch Nutzer ihre kreativen Arbeitsabläufe mit synthetischem Audio bereichern können, das aus natürlichsprachlichen Anweisungen generiert wird. Trotz dieser Fortschritte sind die Auswirkungen von Daten, Modellarchitektur, Trainingsziel-Funktionen und Abtaststrategien auf die Zielbenchmarks noch nicht vollständig verstanden. Mit dem Ziel, ein umfassendes Verständnis des Designraums von TTA-Modellen zu bieten, haben wir ein groß angelegtes empirisches Experiment durchgeführt, das sich auf Diffusions- und Flussanpassungsmodelle konzentriert.Unsere Beiträge umfassen: 1) AF-Synthetisch, eine große Datensammlung hochwertiger synthetischer Beschriftungen, die aus einem Audio-Verständnismodell gewonnen wurden; 2) einen systematischen Vergleich verschiedener architektonischer, trainingsbezogener und inferenzorientierter Designentscheidungen für TTA-Modelle; 3) eine Analyse von Abtastmethoden und ihren Pareto-Kurven im Hinblick auf Generierungskualität und Inferenzgeschwindigkeit. Wir nutzen das Wissen aus dieser umfangreichen Analyse, um unser bestes Modell vorzuschlagen, das wir Elucidated Text-To-Audio (ETTA) genannt haben.Bei der Bewertung auf AudioCaps und MusicCaps bietet ETTA Verbesserungen gegenüber den Baseline-Modellen, die mit öffentlich zugänglichen Daten trainiert wurden, während es gleichzeitig mit Modellen mithalten kann, die mit proprietären Daten trainiert wurden. Schließlich zeigen wir die verbesserte Fähigkeit von ETTA, kreative Audioinhalte auf Basis komplexer und fantasievoller Beschriftungen zu generieren – eine Aufgabe, die anspruchsvoller ist als aktuelle Benchmarks.