HyperAIHyperAI

Command Palette

Search for a command to run...

Daten und Transformer für die Audio-Generierung beherrschen

Moayed Haji-Ali Willi Menapace Aliaksandr Siarohin Guha Balakrishnan Vicente Ordonez

Zusammenfassung

Die Skalierbarkeit von Ambient-Sound-Generatoren wird durch Datenknappheit, unzureichende Caption-Qualität und begrenzte Skalierbarkeit architektonischer Modelle behindert. Diese Arbeit adressiert diese Herausforderungen durch Fortschritte sowohl in der Daten- als auch in der Modellskalierung. Zunächst stellen wir einen effizienten und skalierbaren Datensammlungs-Pipeline für die Generierung von Ambient-Audio vor, der zu AutoReCap-XL führt – dem größten Ambient-Audio-Text-Datensatz mit über 47 Millionen Clips. Um hochwertige textuelle Annotationen bereitzustellen, führen wir AutoCap ein, ein hochwertiges automatisches Audio-Captioning-Modell. Durch die Verwendung eines Q-Former-Moduls und die Ausnutzung von Audio-Metadaten verbessert AutoCap die Caption-Qualität erheblich und erreicht einen CIDEr-Score von 83,283,283,2, was einer Verbesserung um 3,2%3,2\%3,2% gegenüber vorherigen Captioning-Modellen entspricht. Schließlich stellen wir GenAu vor, eine skalierbare, auf Transformers basierende Architektur für Audio-Generierung, die wir auf bis zu 1,25 Milliarden Parameter skaliert haben. Wir zeigen die Vorteile sowohl der Daten-Skalierung mit synthetischen Captions als auch der Modellgröße-Skalierung. Im Vergleich zu Baseline-Audio-Generatoren, die mit ähnlicher Größe und Datenskala trainiert wurden, erzielt GenAu signifikante Verbesserungen um 4,7%4,7\%4,7% im FAD-Score, 11,1%11,1\%11,1% im IS und 13,5%13,5\%13,5% im CLAP-Score. Unser Code, die Modell-Checkpoint-Dateien sowie der Datensatz sind öffentlich zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp