HyperAIHyperAI
vor 12 Tagen

AudioGen: textuell gesteuerte Audio-Generierung

Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre Défossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi
AudioGen: textuell gesteuerte Audio-Generierung
Abstract

Wir behandeln das Problem der Erzeugung von Audiomustern, die auf beschreibenden Textcaptions bedingt sind. In dieser Arbeit stellen wir AudioGen vor, ein autoregressives Generativmodell, das Audiomuster auf der Grundlage von Texteingaben erzeugt. AudioGen arbeitet mit einer gelernten diskreten Audiodarstellung. Die Aufgabe der Text-zu-Audio-Generierung birgt mehrere Herausforderungen. Aufgrund der Art und Weise, wie sich Audio durch ein Medium ausbreitet, kann die Unterscheidung von „Objekten“ eine schwierige Aufgabe sein (z. B. die Trennung mehrerer Personen, die gleichzeitig sprechen). Dies wird durch realwelttypische Aufnahmeeinflüsse wie Hintergrundgeräusche, Nachhall usw. zusätzlich erschwert. Zudem begrenzen die seltenen Textannotierungen die Skalierbarkeit von Modellen. Schließlich erfordert die Modellierung von hochwertiger Audio ein Encoding mit hoher Abtastrate, was zu extrem langen Sequenzen führt. Um diese Herausforderungen zu mildern, schlagen wir eine Erweiterungstechnik vor, die verschiedene Audiomuster mischt, wodurch das Modell intern lernt, mehrere Quellen zu separieren. Wir haben 10 Datensätze zusammengestellt, die unterschiedliche Arten von Audio und Textannotierungen enthalten, um die Knappheit an textbasierten Audiodatenpunkten zu kompensieren. Für eine schnellere Inferenz untersuchen wir den Einsatz von Multi-Stream-Modellierung, die es ermöglicht, kürzere Sequenzen zu verwenden, ohne dass dabei Bitrate und wahrnehmbare Qualität signifikant leiden. Wir wenden classifier-free Guidance an, um die Übereinstimmung mit dem Text zu verbessern. Im Vergleich zu den evaluierten Baselines übertrifft AudioGen sowohl in objektiven als auch in subjektiven Metriken. Schließlich untersuchen wir die Fähigkeit des vorgeschlagenen Ansatzes, Audiofortsetzungen bedingt und unbedingt zu generieren. Beispiele: https://felixkreuk.github.io/audiogen

AudioGen: textuell gesteuerte Audio-Generierung | Neueste Forschungsarbeiten | HyperAI