HyperAIHyperAI

Command Palette

Search for a command to run...

AudioGen: textuell gesteuerte Audio-Generierung

Felix Kreuk Gabriel Synnaeve Adam Polyak Uriel Singer Alexandre Défossez Jade Copet Devi Parikh Yaniv Taigman Yossi Adi

Zusammenfassung

Wir behandeln das Problem der Erzeugung von Audiomustern, die auf beschreibenden Textcaptions bedingt sind. In dieser Arbeit stellen wir AudioGen vor, ein autoregressives Generativmodell, das Audiomuster auf der Grundlage von Texteingaben erzeugt. AudioGen arbeitet mit einer gelernten diskreten Audiodarstellung. Die Aufgabe der Text-zu-Audio-Generierung birgt mehrere Herausforderungen. Aufgrund der Art und Weise, wie sich Audio durch ein Medium ausbreitet, kann die Unterscheidung von „Objekten“ eine schwierige Aufgabe sein (z. B. die Trennung mehrerer Personen, die gleichzeitig sprechen). Dies wird durch realwelttypische Aufnahmeeinflüsse wie Hintergrundgeräusche, Nachhall usw. zusätzlich erschwert. Zudem begrenzen die seltenen Textannotierungen die Skalierbarkeit von Modellen. Schließlich erfordert die Modellierung von hochwertiger Audio ein Encoding mit hoher Abtastrate, was zu extrem langen Sequenzen führt. Um diese Herausforderungen zu mildern, schlagen wir eine Erweiterungstechnik vor, die verschiedene Audiomuster mischt, wodurch das Modell intern lernt, mehrere Quellen zu separieren. Wir haben 10 Datensätze zusammengestellt, die unterschiedliche Arten von Audio und Textannotierungen enthalten, um die Knappheit an textbasierten Audiodatenpunkten zu kompensieren. Für eine schnellere Inferenz untersuchen wir den Einsatz von Multi-Stream-Modellierung, die es ermöglicht, kürzere Sequenzen zu verwenden, ohne dass dabei Bitrate und wahrnehmbare Qualität signifikant leiden. Wir wenden classifier-free Guidance an, um die Übereinstimmung mit dem Text zu verbessern. Im Vergleich zu den evaluierten Baselines übertrifft AudioGen sowohl in objektiven als auch in subjektiven Metriken. Schließlich untersuchen wir die Fähigkeit des vorgeschlagenen Ansatzes, Audiofortsetzungen bedingt und unbedingt zu generieren. Beispiele: https://felixkreuk.github.io/audiogen


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp