SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.
1. Einführung in das Tutorial

SoulX-Podcast ist ein Modell, das für die Generierung von dialogartigen Gesprächen im Podcast-Stil mit mehreren Gesprächsrunden und mehreren Sprechern entwickelt wurde und gleichzeitig auch bei traditionellen Monolog-TTS-Aufgaben gute Ergebnisse liefert.
Um den höheren Anforderungen an die Natürlichkeit der Sprachgenerierung in mehrteiligen Dialogen gerecht zu werden, integriert SoulX-Podcast eine Reihe von Steuerungsmöglichkeiten für zusätzliche Sprachen. Unterstützt werden Mandarin, Englisch sowie verschiedene chinesische Dialekte, darunter Sichuanisch, Henan und Kantonesisch. Dadurch wird die Sprachgenerierung im Podcast-Stil individueller. Weitere technische Details finden Sie in der Publikation mit dem Titel „…“.SoulX-Podcast: Generierung von längeren Podcast-Sprachaufnahmen mit mehreren Sprechern und Dialekten".
In diesem Tutorial wird eine einzelne RTX 5090-Grafikkarte als Standardressource verwendet.
2. Projektbeispiele
Die folgenden Screenshots zeigen die tatsächliche Benutzeroberfläche der SoulX-Podcast WebUI, die auf der OpenBayes-Plattform läuft, und helfen Ihnen, den gesamten Prozess schnell zu verstehen.
Dialekt-Demonstrationsbeispiel

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte
Sobald Sie die WebUI aufrufen, können Sie Folgendes tun:
- Laden Sie eine Referenzaudioaufnahme von zwei Sprechern hoch.
- Geben Sie den Referenztext ein (Dialekthinweise optional)
- Geben Sie das vollständige Podcast-Dialogskript ein.
- Klicken Sie auf die Schaltfläche „Generieren“.
- Sie können die endgültig generierte Podcast-Audiodatei ansehen und abspielen.
Beispielhafte Screenshots der Funktionsweise sind wie folgt:

3. Schritte zur Verwendung von Dialekt-Prompt-Texten
Durch die Bereitstellung zusätzlicher Dialektbeispieltexte für das Modell kann die Natürlichkeit des generierten Sprachgebrauchs deutlich verbessert werden.
Der Prozess besteht aus 4 einfachen Schritten und ist leicht anzuwenden.
Schritt 1: Füllen Sie die grundlegenden Eingabeaufforderungen aus.
Laden Sie die Informationen für S1 bzw. S2 hoch oder füllen Sie sie aus:
- Referenzaudio (Prompt-Audio)
- Der Schritt „Prompt-Text“ dient dazu, Klangfarbe, Tonfall und Rollenmerkmale des Sprechers zu bestimmen, bevor die Dialektverbesserung aktiviert wird.

Schritt 2: Dialekt auswählen
Erweitern Sie die Auswahlliste für den Dialekt-Eingabetext und wählen Sie den Dialekttyp aus, den Sie hervorheben möchten.
Nach der Auswahl lädt das System automatisch typische Beispielsätze für diesen Dialekt.

Schritt 3: Wählen Sie ein Dialektbeispiel aus
Wählen Sie jeweils einen Beispielsatz für S1 und S2 aus.
Nach dem Anklicken eines Beispiels wird der entsprechende Dialekt-Vorschlagstext automatisch in das Eingabefeld eingefügt. Diese Beispiele dienen als Dialekt-Vorschläge und tragen dazu bei, dass die generierte Sprache authentischer und natürlicher klingt.

Schritt 4: Geben Sie den synthetisierten Text ein und generieren Sie ihn.
4. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Projektunterstützung
@misc{SoulXPodcast, title = {SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity}, author = {Hanke Xie and Haopeng Lin and Wenxiao Cao and Dake Guo and Wenjie Tian and Jun Wu and Hanlin Wen and Ruixuan Shang and Hongmei Liu and Zhiqi Jiang and Yuepeng Jiang and Wenxi Chen and Ruiqi Yan and Jiale Qian and Yichao Yan and Shunshun Yin and Ming Tao and Xie Chen and Lei Xie and Xinsheng Wang}, year = {2025}, archivePrefix={arXiv}, url = {https://arxiv.org/abs/2510.23541}}
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.