Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 2 Monaten

Größe

9.75 MB

1. Einführung in das Tutorial

SoulX-Podcast ist ein Modell, das für die Generierung von dialogartigen Gesprächen im Podcast-Stil mit mehreren Gesprächsrunden und mehreren Sprechern entwickelt wurde und gleichzeitig auch bei traditionellen Monolog-TTS-Aufgaben gute Ergebnisse liefert.

Um den höheren Anforderungen an die Natürlichkeit der Sprachgenerierung von mehrteiligen Dialogen gerecht zu werden, integriert SoulX-Podcast eine Reihe von Steuerungsmöglichkeiten für zusätzliche Sprachen. Unterstützt werden Mandarin-Chinesisch, Englisch und verschiedene chinesische Dialekte, darunter Sichuan-Chinesisch, Henan-Dialekt und Kantonesisch. Dadurch wird die Sprachgenerierung im Podcast-Stil individueller. Weitere technische Details finden Sie in der zugehörigen Publikation. SoulX-Podcast: Generierung von längeren Podcast-Sprachaufnahmen mit mehreren Sprechern und Dialekten.

In diesem Tutorial wird eine einzelne RTX 5090-Grafikkarte als Standardressource verwendet.

2. Projektbeispiele

Die folgenden Screenshots zeigen die tatsächliche Benutzeroberfläche der SoulX-Podcast WebUI, die auf der OpenBayes-Plattform läuft, und helfen Ihnen, den gesamten Prozess schnell zu verstehen.

Dialekt-Demonstrationsbeispiel

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte

Sobald Sie die WebUI aufrufen, können Sie Folgendes tun:

Laden Sie eine Referenzaudioaufnahme von zwei Sprechern hoch.
Geben Sie den Referenztext ein (Dialekthinweise optional)
Geben Sie das vollständige Podcast-Dialogskript ein.
Klicken Sie auf die Schaltfläche „Generieren“.
Sie können die endgültig generierte Podcast-Audiodatei ansehen und abspielen.

Beispielhafte Screenshots der Funktionsweise sind wie folgt:

3. Schritte zur Verwendung von Dialekt-Prompt-Texten

Durch die Bereitstellung zusätzlicher Dialektbeispieltexte für das Modell kann die Natürlichkeit des generierten Sprachgebrauchs deutlich verbessert werden.
Der Prozess besteht aus 4 einfachen Schritten und ist leicht anzuwenden.

Schritt 1: Füllen Sie die grundlegenden Eingabeaufforderungen aus.

Laden Sie die Informationen für S1 bzw. S2 hoch oder füllen Sie sie aus:

Referenzaudio (Prompt-Audio)
Der Schritt „Prompt-Text“ dient dazu, Klangfarbe, Tonfall und Rollenmerkmale des Sprechers zu bestimmen, bevor die Dialektverbesserung aktiviert wird.

Schritt 2: Dialekt auswählen

Erweitern Sie die Auswahlliste für den Dialekt-Eingabetext und wählen Sie den Dialekttyp aus, den Sie hervorheben möchten.
Nach der Auswahl lädt das System automatisch typische Beispielsätze für diesen Dialekt.

Schritt 3: Wählen Sie ein Dialektbeispiel aus

Wählen Sie jeweils einen Beispielsatz für S1 und S2 aus.
Nach dem Anklicken eines Beispiels wird der entsprechende Dialekt-Vorschlagstext automatisch in das Eingabefeld eingefügt. Diese Beispiele dienen als Dialekt-Vorschläge und tragen dazu bei, dass die generierte Sprache authentischer und natürlicher klingt.

Schritt 4: Geben Sie den synthetisierten Text ein und generieren Sie ihn.

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Projektunterstützung

@misc{SoulXPodcast,

title = {SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity},
author = {Hanke Xie and Haopeng Lin and Wenxiao Cao and Dake Guo and Wenjie Tian and Jun Wu and Hanlin Wen and Ruixuan Shang and Hongmei Liu and Zhiqi Jiang and Yuepeng Jiang and Wenxi Chen and Ruiqi Yan and Jiale Qian and Yichao Yan and Shunshun Yin and Ming Tao and Xie Chen and Lei Xie and Xinsheng Wang},
year = {2025},
archivePrefix={arXiv},
url = {https://arxiv.org/abs/2510.23541}
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

vor 2 Monaten

Kiss3DGen: Ein Framework Zur Generierung Von 3D-Assets Basierend Auf Einem Bilddiffusionsmodell

vor einem Monat

Krea-realtime-video: Echtzeit-Videogenerierungsmodell

vor 3 Monaten

Dia2-TTS: Echtzeit-Sprachsynthesedienst

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 2 Monaten

Größe

9.75 MB

1. Einführung in das Tutorial

In diesem Tutorial wird eine einzelne RTX 5090-Grafikkarte als Standardressource verwendet.

2. Projektbeispiele

Die folgenden Screenshots zeigen die tatsächliche Benutzeroberfläche der SoulX-Podcast WebUI, die auf der OpenBayes-Plattform läuft, und helfen Ihnen, den gesamten Prozess schnell zu verstehen.