HyperAIHyperAI

VoxCPM: TTS-Technologie Ohne Wortsegmentierung

1. Einführung in das Tutorial

VoxCPM ist ein 0,5-Milliarden-Parameter-Sprachgenerierungsmodell, das im September 2025 gemeinsam von Mianbi Intelligence und der Shenzhen International Graduate School der Tsinghua University entwickelt wurde. Es erreicht branchenführende Niveaus an Natürlichkeit, Klangfarbenähnlichkeit und prosodischer Ausdruckskraft bei der Sprachsynthese. VoxCPM nutzt eine durchgängige diffuse autoregressive Architektur, um kontinuierliche Sprachdarstellungen direkt aus Text zu generieren und so die Grenzen der traditionellen diskreten Wortsegmentierung zu überwinden. Durch hierarchische Sprachmodellierung und endliche Quantisierungsbeschränkungen erreicht es eine implizite Entkopplung von Semantik und Akustik, was die Ausdruckskraft und Generierungsstabilität von Sprache deutlich verbessert. VoxCPM unterstützt Zero-Shot-Voice-Cloning und benötigt nur einen einzigen Referenz-Audioclip, um Klangfarbe, Akzent, emotionale Intonation und andere Eigenschaften des Sprechers präzise zu reproduzieren und so äußerst realistische Sprache zu erzeugen.

Die in diesem Tutorial verwendeten Rechenressourcen sind eine einzelne RTX 4090-Karte.

2. Effektanzeige

3. Bedienungsschritte

1. Starten Sie den Container

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

2. Anwendungsschritte

Spezifische Parameter:

  • CFG-Wert: Je höher der Wert, desto höher die Einhaltung der Eingabeaufforderung, und je niedriger der Wert, desto höher die Kreativität.
  • Inferenzzeitschritte: Die Anzahl der zu generierenden Inferenzzeitschritte (höhere Werte können die Qualität verbessern, jedoch auf Kosten einer geringeren Geschwindigkeit).
  • Verbesserung der Sprachausgabe: Verwendet das ZipEnhancer-Modell, um das Audio der Sprachausgabe zu entrauschen.
  • Textnormalisierung: Verwenden Sie die Wetext-Bibliothek, um den Eingabetext zu normalisieren.

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@misc{voxcpm2025,
  author       = {{Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Ziyang Wang, Runchuan Ye, Weiyue Sun, Jiancheng Gui, Kehan Li, Zhiyong Wu, Zhiyuan Liu}},
  title        = {{VoxCPM}},
  year         = {2025},
  publish = {\url{https://github.com/OpenBMB/VoxCPM}},
  note         = {GitHub repository}
}