Command Palette
Search for a command to run...

Abstract
Dieser Bericht stellt VibeVoice vor, ein neuartiges Modell zur Synthese von Sprache mit mehreren Sprechern über längere Textabschnitte, das die Next-Token-Diffusion verwendet – eine einheitliche Methode zur Modellierung kontinuierlicher Daten durch die autoregressive Generierung latenter Vektoren mittels Diffusion. Um dies zu ermöglichen, führen wir einen neuartigen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zum populären Encodec-Modell die Datenkompression um das 80-fache verbessert, ohne die Leistungsfähigkeit zu beeinträchtigen. Der Tokenizer bewahrt die Audioqualität effektiv und steigert die Recheneffizienz bei der Verarbeitung langer Sequenzen signifikant. Dadurch kann VibeVoice Sprache mit bis zu 90 Minuten Länge (bei einer Kontextfensterlänge von 64 K) und maximal vier Sprechern synthetisieren, wobei der authentische Gesprächsfluss – der „Vibe“ – präzise erfasst wird und die Leistung sowohl offener als auch proprietärer Dialogmodelle übertrifft.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.