HyperAIHyperAI

Command Palette

Search for a command to run...

Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts

Zusammenfassung

Audio ist ein wesentlicher Bestandteil unseres Lebens, doch die Erstellung von Audio erfordert oft Fachwissen und ist zeitaufwendig. In den vergangenen zwölf Monaten haben Forschungsgemeinschaften erhebliche Fortschritte bei der Verbesserung der Leistungskapazität großer, multimodaler audiotogenerativer Modelle für einzelne Modality (Sprache, Klang oder Musik) erzielt, indem sie leistungsfähigere generative Modelle und skalierbare Datenmengen einsetzten. Dennoch fehlen diesen Modellen in mehreren Aspekten Kontrollmöglichkeiten: Sprachgenerierungsmodelle können keine neuen Stile basierend auf Textbeschreibungen synthetisieren und sind auf bestimmte Domänen wie Außenumgebungen beschränkt; Klanggenerierungsmodelle bieten lediglich grobe Kontrolle über Beschreibungen wie „eine Person spricht“ und erzeugen lediglich undeutliche menschliche Stimmen. In dieser Arbeit präsentieren wir Audiobox, ein einheitliches Modell auf Basis von Flow-Matching, das die Generierung verschiedener Audio-Modalitäten ermöglicht. Wir entwickeln beschreibungs- und beispielbasierte Prompting-Strategien, um die Kontrollierbarkeit zu erhöhen und die Paradigmen der Sprach- und Klanggenerierung zu vereinheitlichen. Bei der Sprachgenerierung können wir Transkript, Stimme und andere Audio-Stile unabhängig voneinander steuern. Um die Generalisierungsfähigkeit des Modells unter begrenzten Labels zu verbessern, adaptieren wir ein selbstüberwachtes Infilling-Objektiv zur Vortrainierung auf großen Mengen an unlabeled Audio-Daten. Audiobox erreicht neue Benchmark-Werte in der Sprach- und Klanggenerierung (0,745 Ähnlichkeit auf Librispeech für zero-shot TTS; 0,77 FAD auf AudioCaps für Text-zu-Klang) und eröffnet neue Möglichkeiten zur Erzeugung von Audio mit neuen Stimmen- und Akustikstilen. Zudem integrieren wir Bespoke Solvers, die die Generierungsgeschwindigkeit gegenüber dem Standard-ODE-Solver für Flow-Matching um mehr als das 25-fache beschleunigen, ohne dabei die Leistungsfähigkeit auf mehreren Aufgaben zu beeinträchtigen. Eine interaktive Demo ist unter https://audiobox.metademolab.com/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts | Paper | HyperAI