HyperAIHyperAI

Online-Tutorial | Die Einzigartige Dual-Tokenizer-Architektur Von VibeVoice-1.5B Ermöglicht Die Erstellung Einer 90-minütigen Konversation Zwischen Vier Personen Und Definiert Die Grenzen Der TTS-Technologie neu.

特色图像

Microsofts neuestes Open-Source-Modell VibeVoice-1.5B hat im Bereich der TTS-Technologie für Aufsehen gesorgt. Dieses Modell mit 1,5 Milliarden Parametern kann bis zu 90 Minuten lang äußerst natürliche Sprache erzeugen und unterstützt die Simulation von Gesprächen mit bis zu vier verschiedenen Sprechern. Sein offizieller Blindtest-MOS (Mean Opinion Score) liegt bei bis zu 4,5 und kommt damit der Qualität einer echten menschlichen Stimme sehr nahe.

Die Kerninnovation von VibeVoice-1.5B liegt in seiner einzigartigen Dual-Tokenizer-Architektur und Diffusionsdekodierungstechnologie.Basierend auf dem Qwen2.5-Sprachmodell verwendet es einen akustischen Tokenizer (unter Verwendung einer σ-VAE-Architektur, um eine 3.200-fache Audiokomprimierung zu erreichen) und einen semantischen Tokenizer (mit Schwerpunkt auf der Erhaltung von Textstimmungen und Pausen), um Audiosequenzen mit einer ultraniedrigen Bildrate von nur 7,5 Hz zu verarbeiten. Auf der Dekodierungsseite rekonstruiert ein Diffusionsdecoder mit 123 Millionen Parametern in Verbindung mit dem DPM-Solver-Algorithmus hochauflösende Audiodetails.

VibeVoice-1.5B richtet sich in erster Linie an Forschungs- und Entwickler-Communitys und bietet neue Tools für die Podcast-Produktion, Konversations-KI und die Generierung von Sprachinhalten. Wichtig zu beachten ist jedoch, dass die App derzeit nur Chinesisch und Englisch unterstützt und weder Sprachüberlappungen verarbeiten noch Hintergrundgeräusche erzeugen kann. Microsoft betont ausdrücklich den Forschungszweck und integriert einen hörbaren Haftungsausschluss sowie eine unmerkliche Wasserzeichentechnologie, um Missbrauch zu verhindern.

derzeit,Microsoft VibeVoice-1.5B definiert die Grenzen der TTS-Technologie neuEs wurde im Abschnitt „Tutorial“ der offiziellen Website von HyperAI veröffentlicht.Klicken Sie auf den Link unten, um die Bereitstellung mit einem Klick durchzuführen.

Link zum Tutorial:

https://go.hyper.ai/6Ii8l

Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_NR0n

Demolauf

1. Wählen Sie auf der Homepage von hyper.ai die Seite „Tutorials“ aus, wählen Sie „Microsoft VibeVoice-1.5B: Redefining the Boundaries of TTS Technology“ und klicken Sie auf „Run this Tutorial Online“.

2. Klicken Sie nach dem Seitensprung oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

3. Wählen Sie „NVIDIA GeForce RTX 4090“. Die OpenBayes-Plattform bietet vier Abrechnungsoptionen: „Pay as you go“ oder „Täglich/Wöchentlich/Monatlich“ – je nach Bedarf. Klicken Sie nach Auswahl des „PyTorch“-Images auf „Weiter“. Neue Benutzer können sich über den unten stehenden Einladungslink registrieren und erhalten 4 Stunden kostenlose RTX 4090 und 5 Stunden kostenlose CPU-Zeit!

Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. Warten Sie, bis die Ressourcen zugewiesen wurden. Der erste Klonvorgang dauert etwa 2 Minuten. Wenn sich der Status in „Läuft“ ändert, klicken Sie auf den Sprungpfeil neben „API-Adresse“, um zur Demoseite zu springen. Bitte beachten Sie, dass Benutzer vor der Verwendung der API-Adresszugriffsfunktion eine Echtnamenauthentifizierung durchführen müssen.

Effektdemonstration

Wählen Sie nach dem Aufrufen der Modellseite unter „Anzahl der Sprecher“ die Anzahl der Sprecher aus, stellen Sie die Sprecher unter „Sprecher 1-4“ ein, geben Sie den Konversationstext unter „Konversationsskript“ ein und klicken Sie abschließend auf „Podcast generieren“.

Am Beispiel eines Vier-Personen-Gesprächs hat der Autor eine Stimme generiert:

*prompt:

Sprecher 1: Wie wäre es, dieses Wochenende das neue Café auszuprobieren? Ich habe gehört, ihr Filterkaffee ist gut.

Sprecher 2: Sicher! Aber ich muss am Samstagnachmittag zum Yoga, also habe ich am Sonntagmorgen frei.

Sprecher 3: Sonntagmorgen passt mir auch. Ich möchte mit euch nur über das Teambuilding nächste Woche sprechen.

Sprecher 4: Dann habe ich kein Problem! Treffen wir uns am Sonntag um 10 Uhr am Eingang des Cafés?

Sprecher 1: Super, ich reserviere vorab einen Fensterplatz.

Dies ist das empfohlene Tutorial für dieses Problem. Jeder ist herzlich eingeladen, es selbst auszuprobieren.

Link zum Tutorial:https://go.hyper.ai/6Ii8l

Erhalten Sie mit einem Klick hochwertige Papiere und ausführliche Interpretationsartikel im Bereich AI4S von 2023 bis 2024 ⬇️

Online-Tutorial | Die Einzigartige Dual-Tokenizer-Architektur Von VibeVoice-1.5B Ermöglicht Die Erstellung Einer 90-minütigen Konversation Zwischen Vier Personen Und Definiert Die Grenzen Der TTS-Technologie neu. | Neuigkeiten | HyperAI