Tutoriel En Ligne丨shiji Niangniang Se Transforme Instantanément En « Fille Du Sichuan Et De Chongqing » ? Step-Audio-TTS Réalise Le Clonage De voix/synthèse musicale/synthèse Vocale Trois En Un

il y a un an

L’enthousiasme mondial suscité par l’open source DeepSeek est toujours là. Récemment, Step Star et Geely Auto Group ont une fois de plus fait un pas en avant et ont ouvert le code source du modèle Step-Audio-TTS-3B, ce qui a une fois de plus déclenché de nombreuses discussions dans l'industrie.

il était une fois,La diversité et la complexité des données dialectales ainsi que la forte demande de généralisation des modèles font que le modèle de clonage vocal est peu performant sur les dialectes.Le Step-Audio-TTS-3B peut interpréter de manière vivante les caractéristiques des langues locales. Il est formé sur la base du paradigme LLM-Chat, un ensemble de données synthétiques à grande échelle, et possède une connaissance approfondie de la structure du langage. Il peut saisir les changements subtils dans la langue entre les lignes. Qu'il s'agisse du dialecte passionné du Sichuan ou du cantonais à neuf et six tons, il peut capturer avec précision son rythme et son ton, montrant les fortes coutumes locales.

De plus, il s'agit également du premier modèle TTS à réaliser la génération de RAP et de bourdonnement, comblant ainsi le vide dans la synthèse vocale musicale. Dans le passé, créer un contenu rap rythmé nécessitait des chanteurs professionnels. Désormais, avec l'aide de Step-Audio-TTS-3B, les utilisateurs peuvent rapidement générer une voix RAP avec un rythme précis et un flux fluide, inspirant des possibilités infinies.

Actuellement, le « modèle de génération de parole dialectale de niveau production Step-Audio-TTS-3B » a été lancé dans la section « Tutoriel » du site Web officiel d'HyperAI.Ce tutoriel comprend trois fonctions : la synthèse vocale, la synthèse musicale et le clonage vocal. Venez en faire l'expérience par vous-même~

Adresse du tutoriel:

https://go.hyper.ai/QrTmW

Essai de démonstration

1. Connectez-vous à hyper.ai, sur la page du didacticiel, sélectionnez Step-Audio-TTS-3B Production-Level Dialect Speech Generation Model, puis cliquez sur Exécuter ce didacticiel en ligne.

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

3. Sélectionnez les images « NVIDIA RTX A6000 » et « PyTorch ». La plateforme OpenBayes a lancé une nouvelle méthode de facturation. Vous pouvez choisir « Payer au fur et à mesure » ou « Forfait journalier/hebdomadaire/mensuel » selon vos besoins. Cliquez sur « Continuer ». Les nouveaux utilisateurs peuvent s'inscrire en utilisant le lien d'invitation ci-dessous pour obtenir 4 heures de RTX 4090 + 5 heures de temps CPU gratuit !

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_QZy7

4. Attendez que les ressources soient allouées. Le premier processus de clonage prend environ 2 minutes. Lorsque le statut passe à « En cours d'exécution », cliquez sur la flèche de saut à côté de « Adresse API » pour accéder à la page de démonstration. Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.

Affichage des effets

Ce tutoriel comprend trois fonctions : la synthèse vocale générale, la synthèse musicale et le clonage de la parole.

1. Synthèse vocale générale

Cette fonctionnalité prérégle le personnage vocal par défaut officiel Tingting et la voix nouvellement ajoutée Nezha, et prend en charge la génération multilingue, les émotions, les dialectes et d'autres paramètres.

Description du ton de la synthèse vocale

* Le son Tingting est généré par le fichier audio officiel de 4s

* Le son de Nezha est généré à partir du fichier audio de 14 secondes « Je suis Nezha le troisième prince, je suis décomplexé et j'aime écrire de la poésie, je marche avec mes mains dans mes poches et je peux rendre une route courbe droite »

Sur la page de démonstration, sélectionnez « Synthèse vocale normale », saisissez du texte, sélectionnez le locuteur (la valeur par défaut est Tingting), sélectionnez l'émotion (joyeux, en colère, triste et coquet), sélectionnez la langue/le dialecte (chinois, anglais, japonais, mandarin, sichuanais, cantonais et dialecte du Guangdong) et sélectionnez la vitesse de parole (rapide ou lente). Cliquez simplement sur Générer la parole.

2. Synthèse musicale

Cette fonction prérégle le caractère vocal par défaut du site Web officiel Tingting et le timbre Nezha nouvellement ajouté, et prend en charge le RAP et le fredonnement.

Description du son RAP

* Le son Tingting est généré par le fichier audio officiel 11s

* Le son de Nezha est généré par le fichier audio de 14 secondes « Le tonnerre gronde et j'ai tellement peur, il me frappe partout, je souffle dans la trompette pour changer mon destin, je ris pour traverser la calamité, tic-tac-tic-tic-tic »

Description du bourdonnement

* Le son Tingting est généré par un fichier audio de 12 secondes

* Le son de Nezha est généré par le fichier audio de 14 secondes « Je suis né sans peur, peu importe qui est mon père ou qui que ce soit, si le maître élimine le dirigeant, il ne pourra jamais me commander »

Sélectionnez « Synthèse musicale » sur la page de démonstration, saisissez le texte, sélectionnez le haut-parleur (par défaut, Tingting) et sélectionnez le mode (RAP ou Humming). Cliquez simplement sur « Générer RAP/Humming ».

3. Clonage vocal

Cette fonction permet aux utilisateurs de télécharger des sons au timbre personnalisé et de générer une voix personnalisée.

Sélectionnez « Clonage de voix » sur la page de démonstration, saisissez du texte, téléchargez l'audio de référence (format .wav), nommez la voix clonée, sélectionnez l'émotion (joyeuse, en colère, triste et coquette), sélectionnez la langue/le dialecte (chinois, anglais, japonais, mandarin, sichuanais, cantonais et dialecte du Guangdong) et sélectionnez la vitesse de parole (rapide ou lente). Cliquez simplement sur « Générer une voix clonée ».

Associé Actualités

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

HyperAI

Tutoriel En Ligne丨shiji Niangniang Se Transforme Instantanément En « Fille Du Sichuan Et De Chongqing » ? Step-Audio-TTS Réalise Le Clonage De voix/synthèse musicale/synthèse Vocale Trois En Un

il y a un an

Information

Intelligence Artificielle

Apprentissage Profond

Adresse du tutoriel:

https://go.hyper.ai/QrTmW

Essai de démonstration

1. Connectez-vous à hyper.ai, sur la page du didacticiel, sélectionnez Step-Audio-TTS-3B Production-Level Dialect Speech Generation Model, puis cliquez sur Exécuter ce didacticiel en ligne.

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_QZy7

Affichage des effets

Ce tutoriel comprend trois fonctions : la synthèse vocale générale, la synthèse musicale et le clonage de la parole.

1. Synthèse vocale générale

Description du ton de la synthèse vocale

* Le son Tingting est généré par le fichier audio officiel de 4s

2. Synthèse musicale

Cette fonction prérégle le caractère vocal par défaut du site Web officiel Tingting et le timbre Nezha nouvellement ajouté, et prend en charge le RAP et le fredonnement.

Description du son RAP

* Le son Tingting est généré par le fichier audio officiel 11s

Description du bourdonnement

* Le son Tingting est généré par un fichier audio de 12 secondes

3. Clonage vocal

Cette fonction permet aux utilisateurs de télécharger des sons au timbre personnalisé et de générer une voix personnalisée.

Associé Actualités

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Command Palette

Tutoriel En Ligne丨shiji Niangniang Se Transforme Instantanément En « Fille Du Sichuan Et De Chongqing » ? Step-Audio-TTS Réalise Le Clonage De voix/synthèse musicale/synthèse Vocale Trois En Un

Essai de démonstration

Affichage des effets

Command Palette

Tutoriel En Ligne丨shiji Niangniang Se Transforme Instantanément En « Fille Du Sichuan Et De Chongqing » ? Step-Audio-TTS Réalise Le Clonage De voix/synthèse musicale/synthèse Vocale Trois En Un

Essai de démonstration

Affichage des effets

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Command Palette

Tutoriel En Ligne丨shiji Niangniang Se Transforme Instantanément En « Fille Du Sichuan Et De Chongqing » ? Step-Audio-TTS Réalise Le Clonage De voix/synthèse musicale/synthèse Vocale Trois En Un

Essai de démonstration

Affichage des effets

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel Gratuit Sur Les Processeurs | Avec 8 800 Étoiles, Le Modèle De Synthèse Vocale Supertonic-3 Ne Possède qu'environ 99 Millions De Paramètres Et Prend En Charge 31 langues.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | L'équipe De l'Université De Hong Kong Publie Le Code Source De DeepTutor, Un Assistant d'apprentissage Personnel Qui Facilite l'apprentissage Interactif Couvrant La Compréhension, Le Raisonnement Et La Génération Grâce À La Collaboration multi-agents.