Tutoriel En Ligne | Évaluation Réelle De 3 Modèles De Clonage Vocal, GPT-SoVITS Saisit Avec Précision Les Caractéristiques De « Shiji Niangniang »

il y a un an

Le box-office du film de la Fête du Printemps « Nezha 2 » a grimpé en flèche et a désormais dépassé les 12 milliards, devenant ainsi le premier film chinois à atteindre la barre des 10 milliards de recettes au box-office et à entrer avec succès dans le top 10 de la liste du box-office mondial de l'histoire du cinéma. Dans le film, les doubleurs ont donné aux personnages une vitalité vive avec leurs voix vives. De la voix enfumée de Nezha au dialecte du Sichuan de Taiyi Zhenren, en passant par la vivacité de Shiji Niangniang, ce film a suscité de nombreuses discussions parmi le public et a mis en avant l'art du doublage dans les coulisses.

En ce qui concerne le charme de l'art du doublage, la peau de Bai Jingjing de Mi Yue dans « Honor of Kings » en est un parfait exemple. Le site officiel a spécialement invité Wang Huijun, l'acteur de doublage original de Bai Jingjing dans le film « Une Odyssée chinoise », à lui donner à nouveau sa voix. « Toi et moi devons croire que lâcher prise est aussi une sorte de volonté de Dieu. » Lorsque les lignes familières ont retenti, le ressentiment juvénile de nombreuses personnes s'est instantanément réveillé, et les joueurs ont « généreusement donné » à ce sentiment.

Aujourd’hui, la technologie de clonage vocal se développe rapidement. En s'appuyant sur des modèles avancés de clonage vocal, les gens ordinaires peuvent également transcender le temps et l'espace, reproduire la voix unique de leurs personnages préférés en un clic et satisfaire facilement leur « addiction au doublage » ! à l'heure actuelle,Trois modèles open source grand public, GPT-SoVITS, Fish Speech v1.4 et F5-E2 TTS, se démarquent.Avec leurs avantages uniques respectifs, ils jouent un rôle clé dans différents scénarios d’application. Qu'il s'agisse de création de films et d'émissions de télévision, de production de contenu audio ou de doublage quotidien, on peut les trouver.

La section « Tutoriel » du site officiel d'HyperAI est désormais en ligne :

* Démonstration en ligne de la synthèse audio GPT-SoVITS :

https://hyper.ai/cn/tutorials/29812

* Fish Speech v1.4 Clonage de voix - Démonstration de l'outil de conversion de texte en parole :

https://hyper.ai/cn/tutorials/34680

* F5-E2 TTS clone n'importe quel son en seulement 3 secondes :

https://hyper.ai/cn/tutorials/35468

Aujourd'hui, je vais vous donner une introduction détaillée à ces trois modèles open source de clonage sonore et utiliser le même audio original et la même invite pour vous aider à évaluer les effets d'utilisation réels !

Synthèse audio GPT-SoVITS

* Heure de sortie :2022

* Agence émettrice :Station B, maître Huaer Buku

* Déploiement en un clic :

https://hyper.ai/cn/tutorials/29812

Ce modèle utilise la technologie de codage vocal SoVITS+Transformer et a fait sensation dans le cercle de la synthèse vocale IA dès son lancement. Son effet de synthèse vocale haute fidélité est sans égal. Même avec seulement 5 secondes d'échantillons sonores, il peut réaliser une conversion texte-parole (TTS) sans échantillon.

En prenant comme exemple la voix de Shiji Niangniang dans le film Nezha, en utilisant GPT-SoVITS, nous n'avons besoin que de collecter un échantillon audio des lignes classiques de Shiji Niangniang dans le film comme échantillon pour reproduire avec précision sa voix charmante, vive et puissante.

Clonage de voix Fish Speech v1.4

* Heure de sortie :2024

* Agence émettrice :Équipe audio Fish

* Déploiement en un clic :

https://hyper.ai/cn/tutorials/34680

Le modèle a été formé avec environ 150 000 heures de données et parle couramment le chinois, le japonais et l'anglais. Ses capacités de traitement du langage sont proches des niveaux humains et ses expressions vocales sont riches et variées. Les utilisateurs peuvent ajuster librement le timbre, la hauteur et la vitesse de parole pour créer facilement leur propre voix unique afin de répondre aux besoins personnalisés de chacun en matière de voix de personnages dans différents scénarios créatifs.

F5-E2 TTS clone n'importe quel son en seulement 3 secondes

* Heure de sortie :2024

* Agence émettrice :Université Jiao Tong de Shanghai, Université de Cambridge et Geely Automobile Research Institute (Ningbo) Co., Ltd.

* Déploiement en un clic :

https://hyper.ai/cn/tutorials/35468

F5 TTS est basé sur une méthode de génération non autorégressive basée sur la correspondance de flux, combinée à la technologie Diffusion Transformer (DiT), qui peut générer rapidement une parole naturelle, fluide et fidèle au texte original grâce à un apprentissage zéro coup sans supervision supplémentaire. Le cœur d’E2 TTS réside dans sa fonctionnalité totalement non autorégressive. Il peut générer la séquence vocale entière en une seule fois sans nécessiter de génération étape par étape, améliorant ainsi considérablement la vitesse de génération et maintenant une sortie vocale de haute qualité, réalisant un clonage mixte multi-tons en 3 secondes.

Ce modèle prend en charge 3 fonctions :

* Génération de voix pour une seule personne (TTS par lots) : Générer du texte basé sur l'audio téléchargé.

* Génération de podcasts :Simulez une conversation à deux personnes basée sur un audio à deux personnes.

* Génération de plusieurs types de discours :Des audios avec différentes émotions peuvent être générés à partir des audios du même locuteur avec différentes émotions.

Ce qui précède est la revue du modèle de clonage sonore que nous avons préparé pour vous. Si vous êtes intéressé, venez le découvrir par vous-même !

Associé Actualités

OpenAI Lance GeneBench-Pro, Un Outil Qui Évalue Les Capacités De Recherche En IA À Travers 129 Questions Et 10 domaines.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

HyperAI

Tutoriel En Ligne | Évaluation Réelle De 3 Modèles De Clonage Vocal, GPT-SoVITS Saisit Avec Précision Les Caractéristiques De « Shiji Niangniang »

il y a un an

Information

Intelligence Artificielle

La section « Tutoriel » du site officiel d'HyperAI est désormais en ligne :

* Démonstration en ligne de la synthèse audio GPT-SoVITS :

https://hyper.ai/cn/tutorials/29812

* Fish Speech v1.4 Clonage de voix - Démonstration de l'outil de conversion de texte en parole :

https://hyper.ai/cn/tutorials/34680

* F5-E2 TTS clone n'importe quel son en seulement 3 secondes :

https://hyper.ai/cn/tutorials/35468

Synthèse audio GPT-SoVITS

* Heure de sortie :2022

* Agence émettrice :Station B, maître Huaer Buku

* Déploiement en un clic :

https://hyper.ai/cn/tutorials/29812

Clonage de voix Fish Speech v1.4

* Heure de sortie :2024

* Agence émettrice :Équipe audio Fish

* Déploiement en un clic :

https://hyper.ai/cn/tutorials/34680

F5-E2 TTS clone n'importe quel son en seulement 3 secondes

* Heure de sortie :2024

* Agence émettrice :Université Jiao Tong de Shanghai, Université de Cambridge et Geely Automobile Research Institute (Ningbo) Co., Ltd.

* Déploiement en un clic :

https://hyper.ai/cn/tutorials/35468

Ce modèle prend en charge 3 fonctions :

* Génération de voix pour une seule personne (TTS par lots) : Générer du texte basé sur l'audio téléchargé.

* Génération de podcasts :Simulez une conversation à deux personnes basée sur un audio à deux personnes.

* Génération de plusieurs types de discours :Des audios avec différentes émotions peuvent être générés à partir des audios du même locuteur avec différentes émotions.

Ce qui précède est la revue du modèle de clonage sonore que nous avons préparé pour vous. Si vous êtes intéressé, venez le découvrir par vous-même !

Associé Actualités

OpenAI Lance GeneBench-Pro, Un Outil Qui Évalue Les Capacités De Recherche En IA À Travers 129 Questions Et 10 domaines.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Révolution TTS Sans Échantillonnage ! Quelques Secondes D’audio De Référence Suffisent : OmniVoice Vous Permet De Cloner Facilement Des Centaines De Langues ; 17 Langues En Une Seule Fois : MDPbench Résout Le Problème Majeur De L’analyse Syntaxique Des Systèmes De Texte À Faibles ressources.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Command Palette

Tutoriel En Ligne | Évaluation Réelle De 3 Modèles De Clonage Vocal, GPT-SoVITS Saisit Avec Précision Les Caractéristiques De « Shiji Niangniang »

Command Palette

Tutoriel En Ligne | Évaluation Réelle De 3 Modèles De Clonage Vocal, GPT-SoVITS Saisit Avec Précision Les Caractéristiques De « Shiji Niangniang »

Associé Actualités

OpenAI Lance GeneBench-Pro, Un Outil Qui Évalue Les Capacités De Recherche En IA À Travers 129 Questions Et 10 domaines.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Command Palette

Tutoriel En Ligne | Évaluation Réelle De 3 Modèles De Clonage Vocal, GPT-SoVITS Saisit Avec Précision Les Caractéristiques De « Shiji Niangniang »

Associé Actualités

OpenAI Lance GeneBench-Pro, Un Outil Qui Évalue Les Capacités De Recherche En IA À Travers 129 Questions Et 10 domaines.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Associé Actualités

OpenAI Lance GeneBench-Pro, Un Outil Qui Évalue Les Capacités De Recherche En IA À Travers 129 Questions Et 10 domaines.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Associé Actualités

OpenAI Lance GeneBench-Pro, Un Outil Qui Évalue Les Capacités De Recherche En IA À Travers 129 Questions Et 10 domaines.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Compatible Avec Plus De 600 Langues, Xiaomi Open Sources OmniVoice : Clonage Vocal Réussi Avec Seulement 3 À 10 Secondes D’audio De Référence

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.