vor 6 Monaten

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zusammenfassung

Dieser Bericht stellt VibeVoice vor, ein neuartiges Modell zur Synthese von Sprache mit mehreren Sprechern über längere Textabschnitte, das die Next-Token-Diffusion verwendet – eine einheitliche Methode zur Modellierung kontinuierlicher Daten durch die autoregressive Generierung latenter Vektoren mittels Diffusion. Um dies zu ermöglichen, führen wir einen neuartigen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zum populären Encodec-Modell die Datenkompression um das 80-fache verbessert, ohne die Leistungsfähigkeit zu beeinträchtigen. Der Tokenizer bewahrt die Audioqualität effektiv und steigert die Recheneffizienz bei der Verarbeitung langer Sequenzen signifikant. Dadurch kann VibeVoice Sprache mit bis zu 90 Minuten Länge (bei einer Kontextfensterlänge von 64 K) und maximal vier Sprechern synthetisieren, wobei der authentische Gesprächsfluss – der „Vibe“ – präzise erfasst wird und die Leistung sowohl offener als auch proprietärer Dialogmodelle übertrifft.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Text-to-Speech

Synthese

Audio- Und Sprachverarbeitung

Allgemein

Audio

Aufgabe

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Text-to-Speech

Synthese

Audio- Und Sprachverarbeitung

Allgemein

Audio

Aufgabe

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VibeVoice Technischer Bericht

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VibeVoice Technischer Bericht

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

VibeVoice Technischer Bericht

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang