HyperAIHyperAI
vor 17 Tagen

Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts

Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts
Abstract

Audio ist ein wesentlicher Bestandteil unseres Lebens, doch die Erstellung von Audio erfordert oft Fachwissen und ist zeitaufwendig. In den vergangenen zwölf Monaten haben Forschungsgemeinschaften erhebliche Fortschritte bei der Verbesserung der Leistungskapazität großer, multimodaler audiotogenerativer Modelle für einzelne Modality (Sprache, Klang oder Musik) erzielt, indem sie leistungsfähigere generative Modelle und skalierbare Datenmengen einsetzten. Dennoch fehlen diesen Modellen in mehreren Aspekten Kontrollmöglichkeiten: Sprachgenerierungsmodelle können keine neuen Stile basierend auf Textbeschreibungen synthetisieren und sind auf bestimmte Domänen wie Außenumgebungen beschränkt; Klanggenerierungsmodelle bieten lediglich grobe Kontrolle über Beschreibungen wie „eine Person spricht“ und erzeugen lediglich undeutliche menschliche Stimmen. In dieser Arbeit präsentieren wir Audiobox, ein einheitliches Modell auf Basis von Flow-Matching, das die Generierung verschiedener Audio-Modalitäten ermöglicht. Wir entwickeln beschreibungs- und beispielbasierte Prompting-Strategien, um die Kontrollierbarkeit zu erhöhen und die Paradigmen der Sprach- und Klanggenerierung zu vereinheitlichen. Bei der Sprachgenerierung können wir Transkript, Stimme und andere Audio-Stile unabhängig voneinander steuern. Um die Generalisierungsfähigkeit des Modells unter begrenzten Labels zu verbessern, adaptieren wir ein selbstüberwachtes Infilling-Objektiv zur Vortrainierung auf großen Mengen an unlabeled Audio-Daten. Audiobox erreicht neue Benchmark-Werte in der Sprach- und Klanggenerierung (0,745 Ähnlichkeit auf Librispeech für zero-shot TTS; 0,77 FAD auf AudioCaps für Text-zu-Klang) und eröffnet neue Möglichkeiten zur Erzeugung von Audio mit neuen Stimmen- und Akustikstilen. Zudem integrieren wir Bespoke Solvers, die die Generierungsgeschwindigkeit gegenüber dem Standard-ODE-Solver für Flow-Matching um mehr als das 25-fache beschleunigen, ohne dabei die Leistungsfähigkeit auf mehreren Aufgaben zu beeinträchtigen. Eine interaktive Demo ist unter https://audiobox.metademolab.com/ verfügbar.

Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts | Neueste Forschungsarbeiten | HyperAI