HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

VibeVoice Technischer Bericht

VibeVoice Technischer Bericht

Abstract

Dieser Bericht stellt VibeVoice vor, ein neuartiges Modell zur Synthese von Sprache mit mehreren Sprechern über längere Textabschnitte, das die Next-Token-Diffusion verwendet – eine einheitliche Methode zur Modellierung kontinuierlicher Daten durch die autoregressive Generierung latenter Vektoren mittels Diffusion. Um dies zu ermöglichen, führen wir einen neuartigen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zum populären Encodec-Modell die Datenkompression um das 80-fache verbessert, ohne die Leistungsfähigkeit zu beeinträchtigen. Der Tokenizer bewahrt die Audioqualität effektiv und steigert die Recheneffizienz bei der Verarbeitung langer Sequenzen signifikant. Dadurch kann VibeVoice Sprache mit bis zu 90 Minuten Länge (bei einer Kontextfensterlänge von 64 K) und maximal vier Sprechern synthetisieren, wobei der authentische Gesprächsfluss – der „Vibe“ – präzise erfasst wird und die Leistung sowohl offener als auch proprietärer Dialogmodelle übertrifft.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VibeVoice Technischer Bericht | Forschungsarbeiten | HyperAI