vor 6 Monaten

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Zusammenfassung

Audio ist ein wesentlicher Bestandteil unseres Lebens, doch die Erstellung von Audio erfordert oft Fachwissen und ist zeitaufwendig. In den vergangenen zwölf Monaten haben Forschungsgemeinschaften erhebliche Fortschritte bei der Verbesserung der Leistungskapazität großer, multimodaler audiotogenerativer Modelle für einzelne Modality (Sprache, Klang oder Musik) erzielt, indem sie leistungsfähigere generative Modelle und skalierbare Datenmengen einsetzten. Dennoch fehlen diesen Modellen in mehreren Aspekten Kontrollmöglichkeiten: Sprachgenerierungsmodelle können keine neuen Stile basierend auf Textbeschreibungen synthetisieren und sind auf bestimmte Domänen wie Außenumgebungen beschränkt; Klanggenerierungsmodelle bieten lediglich grobe Kontrolle über Beschreibungen wie „eine Person spricht“ und erzeugen lediglich undeutliche menschliche Stimmen. In dieser Arbeit präsentieren wir Audiobox, ein einheitliches Modell auf Basis von Flow-Matching, das die Generierung verschiedener Audio-Modalitäten ermöglicht. Wir entwickeln beschreibungs- und beispielbasierte Prompting-Strategien, um die Kontrollierbarkeit zu erhöhen und die Paradigmen der Sprach- und Klanggenerierung zu vereinheitlichen. Bei der Sprachgenerierung können wir Transkript, Stimme und andere Audio-Stile unabhängig voneinander steuern. Um die Generalisierungsfähigkeit des Modells unter begrenzten Labels zu verbessern, adaptieren wir ein selbstüberwachtes Infilling-Objektiv zur Vortrainierung auf großen Mengen an unlabeled Audio-Daten. Audiobox erreicht neue Benchmark-Werte in der Sprach- und Klanggenerierung (0,745 Ähnlichkeit auf Librispeech für zero-shot TTS; 0,77 FAD auf AudioCaps für Text-zu-Klang) und eröffnet neue Möglichkeiten zur Erzeugung von Audio mit neuen Stimmen- und Akustikstilen. Zudem integrieren wir Bespoke Solvers, die die Generierungsgeschwindigkeit gegenüber dem Standard-ODE-Solver für Flow-Matching um mehr als das 25-fache beschleunigen, ohne dabei die Leistungsfähigkeit auf mehreren Aufgaben zu beeinträchtigen. Eine interaktive Demo ist unter https://audiobox.metademolab.com/ verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts | Paper | HyperAI

Command Palette

Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Audiobox: Einheitliche Audioerzeugung mit natürlichen Sprachprompts

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan14 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan

Apoorv Vyas Bowen Shi Matthew Le Andros Tjandra Yi-Chiao Wu Baishan Guo Jiemin Zhang Xinyue Zhang Robert Adkins William Ngan