MOSS: Text-to-Spoken-Dialoggenerierung
1. Einführung in das Tutorial

MOSS-TTSD ist ein Open-Source-Modell zur Synthese zweisprachiger gesprochener Dialoge, das vom OpenMOSS-Team am 20. Juni 2025 veröffentlicht wurde und Chinesisch und Englisch unterstützt. Es kann ein Gesprächsskript zwischen zwei Sprechern in natürliche, ausdrucksstarke Konversationssprache umwandeln. MOSS-TTSD unterstützt Stimmklonierung und die Generierung langer Einzelsegmente und eignet sich daher ideal für die KI-Podcast-Produktion. Die Ergebnisse der Studie sind:MOSS-TTSD: Generierung von Text zu gesprochenem Dialog".
Dieses Tutorial verwendet Ressourcen für eine einzelne RTX 4090-Karte.
2. Projektbeispiele

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite. Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.
*In diesem Tutorial können Sie im „Audioeingabemodus“ zwischen der Audiogenerierung für einen Einzelspieler (Single) und der Audiogenerierung für Dialoge für zwei Spieler (Rolle) wählen.


4. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen
Die Zitationsinformationen für dieses Projekt lauten wie folgt:
@article{moss2025ttsd,
title={Text to Spoken Dialogue Generation},
author={OpenMOSS Team},
year={2025}
}