Online-Tutorial丨Shiji Niangniang Verwandelt Sich Sofort in Ein „Mädchen Aus Sichuan Und Chongqing“? Step-Audio-TTS Realisiert Sprachklonen/Musiksynthese/Sprachsynthese drei-in-eins

vor einem Jahr

Die weltweite Begeisterung für die Open Source-Lösung DeepSeek ist nach wie vor vorhanden. Vor Kurzem haben Step Star und Geely Auto Group erneut einen Schritt nach vorne gemacht und das Modell Step-Audio-TTS-3B als Open Source freigegeben, was in der Branche erneut zu breiten Diskussionen geführt hat.

Es war einmal,Aufgrund der Vielfalt und Komplexität der Dialektdaten und der hohen Anforderungen an die Modellgeneralisierung weist das Stimmklonmodell bei Dialekten eine schlechte Leistung auf.Das Step-Audio-TTS-3B kann die Besonderheiten lokaler Sprachen anschaulich interpretieren. Es wird auf Grundlage eines umfangreichen synthetischen Datensatzes des LLM-Chat-Paradigmas trainiert und verfügt über einen tiefen Einblick in die Struktur der Sprache. Es kann die subtilen Veränderungen in der Sprache zwischen den Zeilen erfassen. Ob es sich um den leidenschaftlichen Sichuan-Dialekt oder das neun- und sechsstimmige Kantonesisch handelt, es kann dessen Rhythmus und Ton präzise einfangen und so die starken lokalen Bräuche zum Ausdruck bringen.

Darüber hinaus ist es das erste TTS-Modell, das RAP und Summengenerierung realisiert und so die Lücke in der Musik-Sprachsynthese schließt. Früher waren für die Erstellung rhythmischer Rap-Inhalte professionelle Sänger erforderlich. Mithilfe von Step-Audio-TTS-3B können Benutzer jetzt schnell einen RAP-Gesang mit präzisem Rhythmus und flüssigem Fluss erzeugen, der zu endlosen Möglichkeiten inspiriert.

Derzeit wurde das „Step-Audio-TTS-3B-Modell zur Dialektsprachgenerierung auf Produktionsniveau“ im Abschnitt „Tutorial“ der offiziellen Website von HyperAI veröffentlicht.Dieses Tutorial umfasst drei Funktionen: Sprachsynthese, Musiksynthese und Stimmklonen. Kommen Sie und erleben Sie es selbst~

Adresse des Tutorials:

https://go.hyper.ai/QrTmW

Demolauf

1. Melden Sie sich bei hyper.ai an, wählen Sie auf der Tutorial-Seite „Step-Audio-TTS-3B Production-Level Dialect Speech Generation Model“ und klicken Sie auf „Dieses Tutorial online ausführen“.

2. Klicken Sie nach dem Seitensprung oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

3. Wählen Sie die Bilder „NVIDIA RTX A6000“ und „PyTorch“ aus. Die OpenBayes-Plattform hat eine neue Abrechnungsmethode eingeführt. Sie können je nach Bedarf zwischen „Pay as you go“ oder „Tages-/Wochen-/Monatspaket“ wählen. Klicken Sie auf „Weiter“. Neue Benutzer können sich über den unten stehenden Einladungslink registrieren, um 4 Stunden RTX 4090 + 5 Stunden CPU-freie Zeit zu erhalten!

Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_QZy7

4. Warten Sie, bis die Ressourcen zugewiesen wurden. Der erste Klonvorgang dauert etwa 2 Minuten. Wenn sich der Status in „Läuft“ ändert, klicken Sie auf den Sprungpfeil neben „API-Adresse“, um zur Demoseite zu springen. Bitte beachten Sie, dass Benutzer vor der Verwendung der API-Adresszugriffsfunktion eine Echtnamenauthentifizierung durchführen müssen.

Effektanzeige

Dieses Tutorial umfasst drei Funktionen: allgemeine Sprachsynthese, Musiksynthese und Sprachklonen.

1. Allgemeine Sprachsynthese

Diese Funktion stellt den offiziellen Standard-Stimmcharakter Tingting und die neu hinzugefügte Stimme Nezha vorein und unterstützt die Generierung mehrerer Sprachen, Emotionen, Dialekte und andere Einstellungen.

Tonbeschreibung der Sprachsynthese

* Der Ton Tingting wird durch die offizielle 4s-Audio-Prompt-Datei generiert

* Der Ton von Nezha wird aus der 14-sekündigen Audio-Eingabeaufforderung „Ich bin Nezha, der dritte Prinz, ich bin hemmungslos und liebe es, Gedichte zu schreiben, ich gehe mit den Händen in den Taschen und kann eine kurvige Straße gerade machen“ generiert.

Wählen Sie auf der Demoseite „Normale Sprachsynthese“ aus, geben Sie Text ein, wählen Sie den Sprecher aus (Standard ist Tingting), wählen Sie die Emotion aus (glücklich, wütend, traurig und kokett), wählen Sie die Sprache/den Dialekt aus (Chinesisch, Englisch, Japanisch, Mandarin, Sichuanesisch, Kantonesisch und Guangdong-Dialekt) und wählen Sie die Sprechgeschwindigkeit (schnell oder langsam). Klicken Sie einfach auf „Sprache generieren“.

2. Musiksynthese

Diese Funktion stellt den Standard-Stimmcharakter Tingting der offiziellen Website und das neu hinzugefügte Nezha-Timbre vor und unterstützt RAP und Summen.

RAP-Soundbeschreibung

* Der Ton Tingting wird durch die offizielle 11s-Audio-Prompt-Datei generiert

* Der Ton von Nezha wird durch die 14-sekündige Audioaufforderung „Der Donner rollt und ich habe solche Angst, er trifft mich am ganzen Körper, ich blase die Trompete, um mein Schicksal zu ändern, ich lache, um das Unglück zu überstehen, tick-tick-tick-tick-tick“ erzeugt.

Summton Beschreibung

* Der Ton Tingting wird durch eine 12s lange Audio-Prompt-Datei generiert

* Der Ton von Nezha wird durch die 14-sekündige Audioaufforderung „Ich bin furchtlos geboren, egal wer mein Vater oder wer auch immer ist, wenn der Meister den Herrscher herausnimmt, wird er mir niemals Befehle erteilen können“ erzeugt.

Wählen Sie auf der Demoseite „Musiksynthese“, geben Sie den Text ein, wählen Sie den Lautsprecher aus (Standard ist Tingting) und wählen Sie den Modus (RAP oder Humming). Klicken Sie einfach auf „RAP/Humming generieren“.

3. Stimmenklonen

Diese Funktion unterstützt Benutzer beim Hochladen von Audio mit benutzerdefinierter Klangfarbe und beim Generieren einer personalisierten Stimme.

Wählen Sie auf der Demoseite „Stimmklonen“ aus, geben Sie Text ein, laden Sie Referenzaudio hoch (WAV-Format), benennen Sie die geklonte Stimme, wählen Sie eine Emotion (glücklich, wütend, traurig und kokett), wählen Sie eine Sprache/einen Dialekt (Chinesisch, Englisch, Japanisch, Mandarin, Sichuanesisch, Kantonesisch und Guangdong-Dialekt) und wählen Sie eine Sprechgeschwindigkeit (schnell oder langsam). Klicken Sie einfach auf „Klonstimme generieren“.

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Online-Tutorial | Unterstützt Über 600 Sprachen, Xiaomi Open Source OmniVoice: Stimmenklonen Mit Nur 3–10 Sekunden Referenzaudio

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses CPU-Tutorial | Das Supertonic-3 TTS-Modell, Das 8.800 Sterne Erreicht Hat, Verfügt Über Nur Etwa 99 Millionen Parameter Und Unterstützt 31 Sprachen.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | OpenClaw Mit Freier CPU Bereitstellen Und Einfach in Soziale Software Wie Lark/Discord Integrieren

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Online-Tutorial | Das HKU-Team Veröffentlicht DeepTutor, Einen Persönlichen Lernassistenten, Der Interaktives Lernen in Den Bereichen Verstehen, Schlussfolgern Und Generieren Durch Multiagenten-Kollaboration ermöglicht.

HyperAI

Online-Tutorial丨Shiji Niangniang Verwandelt Sich Sofort in Ein „Mädchen Aus Sichuan Und Chongqing“? Step-Audio-TTS Realisiert Sprachklonen/Musiksynthese/Sprachsynthese drei-in-eins

vor einem Jahr

Information

Künstliche Intelligenz

Tiefes Lernen

Adresse des Tutorials:

https://go.hyper.ai/QrTmW

Demolauf

2. Klicken Sie nach dem Seitensprung oben rechts auf „Klonen“, um das Tutorial in Ihren eigenen Container zu klonen.

Exklusiver Einladungslink von HyperAI (kopieren und im Browser öffnen):

https://openbayes.com/console/signup?r=Ada0322_QZy7

Effektanzeige

Dieses Tutorial umfasst drei Funktionen: allgemeine Sprachsynthese, Musiksynthese und Sprachklonen.

1. Allgemeine Sprachsynthese

Tonbeschreibung der Sprachsynthese

* Der Ton Tingting wird durch die offizielle 4s-Audio-Prompt-Datei generiert

2. Musiksynthese

Diese Funktion stellt den Standard-Stimmcharakter Tingting der offiziellen Website und das neu hinzugefügte Nezha-Timbre vor und unterstützt RAP und Summen.

RAP-Soundbeschreibung

* Der Ton Tingting wird durch die offizielle 11s-Audio-Prompt-Datei generiert

Summton Beschreibung

* Der Ton Tingting wird durch eine 12s lange Audio-Prompt-Datei generiert

3. Stimmenklonen

Diese Funktion unterstützt Benutzer beim Hochladen von Audio mit benutzerdefinierter Klangfarbe und beim Generieren einer personalisierten Stimme.

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Online-Tutorial | Unterstützt Über 600 Sprachen, Xiaomi Open Source OmniVoice: Stimmenklonen Mit Nur 3–10 Sekunden Referenzaudio

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses CPU-Tutorial | Das Supertonic-3 TTS-Modell, Das 8.800 Sterne Erreicht Hat, Verfügt Über Nur Etwa 99 Millionen Parameter Und Unterstützt 31 Sprachen.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | OpenClaw Mit Freier CPU Bereitstellen Und Einfach in Soziale Software Wie Lark/Discord Integrieren

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Online-Tutorial | Das HKU-Team Veröffentlicht DeepTutor, Einen Persönlichen Lernassistenten, Der Interaktives Lernen in Den Bereichen Verstehen, Schlussfolgern Und Generieren Durch Multiagenten-Kollaboration ermöglicht.

Command Palette

Online-Tutorial丨Shiji Niangniang Verwandelt Sich Sofort in Ein „Mädchen Aus Sichuan Und Chongqing“? Step-Audio-TTS Realisiert Sprachklonen/Musiksynthese/Sprachsynthese drei-in-eins

Demolauf

Effektanzeige

Command Palette

Online-Tutorial丨Shiji Niangniang Verwandelt Sich Sofort in Ein „Mädchen Aus Sichuan Und Chongqing“? Step-Audio-TTS Realisiert Sprachklonen/Musiksynthese/Sprachsynthese drei-in-eins

Demolauf

Effektanzeige

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Online-Tutorial | Unterstützt Über 600 Sprachen, Xiaomi Open Source OmniVoice: Stimmenklonen Mit Nur 3–10 Sekunden Referenzaudio

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses CPU-Tutorial | Das Supertonic-3 TTS-Modell, Das 8.800 Sterne Erreicht Hat, Verfügt Über Nur Etwa 99 Millionen Parameter Und Unterstützt 31 Sprachen.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | OpenClaw Mit Freier CPU Bereitstellen Und Einfach in Soziale Software Wie Lark/Discord Integrieren

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Online-Tutorial | Das HKU-Team Veröffentlicht DeepTutor, Einen Persönlichen Lernassistenten, Der Interaktives Lernen in Den Bereichen Verstehen, Schlussfolgern Und Generieren Durch Multiagenten-Kollaboration ermöglicht.

Command Palette

Online-Tutorial丨Shiji Niangniang Verwandelt Sich Sofort in Ein „Mädchen Aus Sichuan Und Chongqing“? Step-Audio-TTS Realisiert Sprachklonen/Musiksynthese/Sprachsynthese drei-in-eins

Demolauf

Effektanzeige

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Online-Tutorial | Unterstützt Über 600 Sprachen, Xiaomi Open Source OmniVoice: Stimmenklonen Mit Nur 3–10 Sekunden Referenzaudio

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses CPU-Tutorial | Das Supertonic-3 TTS-Modell, Das 8.800 Sterne Erreicht Hat, Verfügt Über Nur Etwa 99 Millionen Parameter Und Unterstützt 31 Sprachen.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | OpenClaw Mit Freier CPU Bereitstellen Und Einfach in Soziale Software Wie Lark/Discord Integrieren

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Online-Tutorial | Das HKU-Team Veröffentlicht DeepTutor, Einen Persönlichen Lernassistenten, Der Interaktives Lernen in Den Bereichen Verstehen, Schlussfolgern Und Generieren Durch Multiagenten-Kollaboration ermöglicht.

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Online-Tutorial | Unterstützt Über 600 Sprachen, Xiaomi Open Source OmniVoice: Stimmenklonen Mit Nur 3–10 Sekunden Referenzaudio

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses CPU-Tutorial | Das Supertonic-3 TTS-Modell, Das 8.800 Sterne Erreicht Hat, Verfügt Über Nur Etwa 99 Millionen Parameter Und Unterstützt 31 Sprachen.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | OpenClaw Mit Freier CPU Bereitstellen Und Einfach in Soziale Software Wie Lark/Discord Integrieren

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Online-Tutorial | Das HKU-Team Veröffentlicht DeepTutor, Einen Persönlichen Lernassistenten, Der Interaktives Lernen in Den Bereichen Verstehen, Schlussfolgern Und Generieren Durch Multiagenten-Kollaboration ermöglicht.

Verwandt Neuigkeiten

Erreichen Sie „Sprachausgabefreiheit“ Mit Nur 3 Sekunden Audio: Mistral Open-Source-Sprachmodell Voxtral-4B-TTS-2603; Setzen Sie Einen Neuen Maßstab Für Datenqualität: Sutra 10B Pretraining.

Durchbruch Bei TTS Durch Zero-Sampling! Mit Nur Wenigen Sekunden Referenzaudio Hilft OmniVoice Ihnen, Hunderte Von Sprachen Mühelos Zu Klonen; 17 Sprachen Auf Einmal: MDPbench Löst Das Hauptproblem Des Parsens Ressourcenarmer Textsysteme.

Online-Tutorial | Unterstützt Über 600 Sprachen, Xiaomi Open Source OmniVoice: Stimmenklonen Mit Nur 3–10 Sekunden Referenzaudio

Schnell Und Präzise! Cohere Veröffentlicht Ein Open-Source-Transkriptionsmodell; Präzises Parsen Komplexer Szenarien: Das Visuelle Sprachmodell Chandra-ocr-2 Erzielt Eine Genaue OCR.

Kostenloses CPU-Tutorial | Das Supertonic-3 TTS-Modell, Das 8.800 Sterne Erreicht Hat, Verfügt Über Nur Etwa 99 Millionen Parameter Und Unterstützt 31 Sprachen.

Tencent Veröffentlicht Hy-MT1.5 Als Open Source: Das 440 MB Große Übersetzungsmodell Bietet Erstklassige Übersetzungsfähigkeiten; MIT Veröffentlicht Gemeinsam MathNet: Einen Multimodalen Benchmark Für Mathematische Inferenz, Der 27.000 Reale Mathematikaufgaben Der Olympiade abdeckt.

Online-Tutorial | OpenClaw Mit Freier CPU Bereitstellen Und Einfach in Soziale Software Wie Lark/Discord Integrieren

Ein Lokal Ausführbares Modell Zur Erkennung Von Datenschutzverletzungen: Privacy Filter Erzielt Eine Hochwertige Filterung Personenbezogener Daten Zu Geringen Kosten; Echte Open Source! Umfasst Den Strukturierten Fußballdatensatz Von Transfermarkt Mit Über 80.000 Spielen.

Online-Tutorial | Das HKU-Team Veröffentlicht DeepTutor, Einen Persönlichen Lernassistenten, Der Interaktives Lernen in Den Bereichen Verstehen, Schlussfolgern Und Generieren Durch Multiagenten-Kollaboration ermöglicht.