HyperAIHyperAI

Command Palette

Search for a command to run...

VibeVoice Technischer Bericht

Zusammenfassung

Dieser Bericht stellt VibeVoice vor, ein neuartiges Modell zur Synthese von Sprache mit mehreren Sprechern über längere Textabschnitte, das die Next-Token-Diffusion verwendet – eine einheitliche Methode zur Modellierung kontinuierlicher Daten durch die autoregressive Generierung latenter Vektoren mittels Diffusion. Um dies zu ermöglichen, führen wir einen neuartigen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zum populären Encodec-Modell die Datenkompression um das 80-fache verbessert, ohne die Leistungsfähigkeit zu beeinträchtigen. Der Tokenizer bewahrt die Audioqualität effektiv und steigert die Recheneffizienz bei der Verarbeitung langer Sequenzen signifikant. Dadurch kann VibeVoice Sprache mit bis zu 90 Minuten Länge (bei einer Kontextfensterlänge von 64 K) und maximal vier Sprechern synthetisieren, wobei der authentische Gesprächsfluss – der „Vibe“ – präzise erfasst wird und die Leistung sowohl offener als auch proprietärer Dialogmodelle übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp