vor 12 Tagen

Daten und Transformer für die Audio-Generierung beherrschen

Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Vicente Ordonez

Abstract

Die Skalierbarkeit von Ambient-Sound-Generatoren wird durch Datenknappheit, unzureichende Caption-Qualität und begrenzte Skalierbarkeit architektonischer Modelle behindert. Diese Arbeit adressiert diese Herausforderungen durch Fortschritte sowohl in der Daten- als auch in der Modellskalierung. Zunächst stellen wir einen effizienten und skalierbaren Datensammlungs-Pipeline für die Generierung von Ambient-Audio vor, der zu AutoReCap-XL führt – dem größten Ambient-Audio-Text-Datensatz mit über 47 Millionen Clips. Um hochwertige textuelle Annotationen bereitzustellen, führen wir AutoCap ein, ein hochwertiges automatisches Audio-Captioning-Modell. Durch die Verwendung eines Q-Former-Moduls und die Ausnutzung von Audio-Metadaten verbessert AutoCap die Caption-Qualität erheblich und erreicht einen CIDEr-Score von $83,2$, was einer Verbesserung um $3,2\%$ gegenüber vorherigen Captioning-Modellen entspricht. Schließlich stellen wir GenAu vor, eine skalierbare, auf Transformers basierende Architektur für Audio-Generierung, die wir auf bis zu 1,25 Milliarden Parameter skaliert haben. Wir zeigen die Vorteile sowohl der Daten-Skalierung mit synthetischen Captions als auch der Modellgröße-Skalierung. Im Vergleich zu Baseline-Audio-Generatoren, die mit ähnlicher Größe und Datenskala trainiert wurden, erzielt GenAu signifikante Verbesserungen um $4,7\%$ im FAD-Score, $11,1\%$ im IS und $13,5\%$ im CLAP-Score. Unser Code, die Modell-Checkpoint-Dateien sowie der Datensatz sind öffentlich zugänglich.