Command Palette
Search for a command to run...
Daten und Transformer für die Audio-Generierung beherrschen
Daten und Transformer für die Audio-Generierung beherrschen
Moayed Haji-Ali Willi Menapace Aliaksandr Siarohin Guha Balakrishnan Vicente Ordonez
Zusammenfassung
Die Skalierbarkeit von Ambient-Sound-Generatoren wird durch Datenknappheit, unzureichende Caption-Qualität und begrenzte Skalierbarkeit architektonischer Modelle behindert. Diese Arbeit adressiert diese Herausforderungen durch Fortschritte sowohl in der Daten- als auch in der Modellskalierung. Zunächst stellen wir einen effizienten und skalierbaren Datensammlungs-Pipeline für die Generierung von Ambient-Audio vor, der zu AutoReCap-XL führt – dem größten Ambient-Audio-Text-Datensatz mit über 47 Millionen Clips. Um hochwertige textuelle Annotationen bereitzustellen, führen wir AutoCap ein, ein hochwertiges automatisches Audio-Captioning-Modell. Durch die Verwendung eines Q-Former-Moduls und die Ausnutzung von Audio-Metadaten verbessert AutoCap die Caption-Qualität erheblich und erreicht einen CIDEr-Score von 83,2, was einer Verbesserung um 3,2% gegenüber vorherigen Captioning-Modellen entspricht. Schließlich stellen wir GenAu vor, eine skalierbare, auf Transformers basierende Architektur für Audio-Generierung, die wir auf bis zu 1,25 Milliarden Parameter skaliert haben. Wir zeigen die Vorteile sowohl der Daten-Skalierung mit synthetischen Captions als auch der Modellgröße-Skalierung. Im Vergleich zu Baseline-Audio-Generatoren, die mit ähnlicher Größe und Datenskala trainiert wurden, erzielt GenAu signifikante Verbesserungen um 4,7% im FAD-Score, 11,1% im IS und 13,5% im CLAP-Score. Unser Code, die Modell-Checkpoint-Dateien sowie der Datensatz sind öffentlich zugänglich.