Tutoriel En Ligne | Évaluation Réelle De 3 Modèles De Clonage Vocal, GPT-SoVITS Saisit Avec Précision Les Caractéristiques De « Shiji Niangniang »

Le box-office du film de la Fête du Printemps « Nezha 2 » a grimpé en flèche et a désormais dépassé les 12 milliards, devenant ainsi le premier film chinois à atteindre la barre des 10 milliards de recettes au box-office et à entrer avec succès dans le top 10 de la liste du box-office mondial de l'histoire du cinéma. Dans le film, les doubleurs ont donné aux personnages une vitalité vive avec leurs voix vives. De la voix enfumée de Nezha au dialecte du Sichuan de Taiyi Zhenren, en passant par la vivacité de Shiji Niangniang, ce film a suscité de nombreuses discussions parmi le public et a mis en avant l'art du doublage dans les coulisses.
En ce qui concerne le charme de l'art du doublage, la peau de Bai Jingjing de Mi Yue dans « Honor of Kings » en est un parfait exemple. Le site officiel a spécialement invité Wang Huijun, l'acteur de doublage original de Bai Jingjing dans le film « Une Odyssée chinoise », à lui donner à nouveau sa voix. « Toi et moi devons croire que lâcher prise est aussi une sorte de volonté de Dieu. » Lorsque les lignes familières ont retenti, le ressentiment juvénile de nombreuses personnes s'est instantanément réveillé, et les joueurs ont « généreusement donné » à ce sentiment.
Aujourd’hui, la technologie de clonage vocal se développe rapidement. En s'appuyant sur des modèles avancés de clonage vocal, les gens ordinaires peuvent également transcender le temps et l'espace, reproduire la voix unique de leurs personnages préférés en un clic et satisfaire facilement leur « addiction au doublage » ! à l'heure actuelle,Trois modèles open source grand public, GPT-SoVITS, Fish Speech v1.4 et F5-E2 TTS, se démarquent.Avec leurs avantages uniques respectifs, ils jouent un rôle clé dans différents scénarios d’application. Qu'il s'agisse de création de films et d'émissions de télévision, de production de contenu audio ou de doublage quotidien, on peut les trouver.
La section « Tutoriel » du site officiel d'HyperAI est désormais en ligne :
* Démonstration en ligne de la synthèse audio GPT-SoVITS :
https://hyper.ai/cn/tutorials/29812
* Fish Speech v1.4 Clonage de voix - Démonstration de l'outil de conversion de texte en parole :
https://hyper.ai/cn/tutorials/34680
* F5-E2 TTS clone n'importe quel son en seulement 3 secondes :
https://hyper.ai/cn/tutorials/35468
Aujourd'hui, je vais vous donner une introduction détaillée à ces trois modèles open source de clonage sonore et utiliser le même audio original et la même invite pour vous aider à évaluer les effets d'utilisation réels !
Synthèse audio GPT-SoVITS
* Heure de sortie :2022
* Agence émettrice :Station B, maître Huaer Buku
* Déploiement en un clic :
https://hyper.ai/cn/tutorials/29812
Ce modèle utilise la technologie de codage vocal SoVITS+Transformer et a fait sensation dans le cercle de la synthèse vocale IA dès son lancement. Son effet de synthèse vocale haute fidélité est sans égal. Même avec seulement 5 secondes d'échantillons sonores, il peut réaliser une conversion texte-parole (TTS) sans échantillon.
En prenant comme exemple la voix de Shiji Niangniang dans le film Nezha, en utilisant GPT-SoVITS, nous n'avons besoin que de collecter un échantillon audio des lignes classiques de Shiji Niangniang dans le film comme échantillon pour reproduire avec précision sa voix charmante, vive et puissante.
Clonage de voix Fish Speech v1.4
* Heure de sortie :2024
* Agence émettrice :Équipe audio Fish
* Déploiement en un clic :
https://hyper.ai/cn/tutorials/34680
Le modèle a été formé avec environ 150 000 heures de données et parle couramment le chinois, le japonais et l'anglais. Ses capacités de traitement du langage sont proches des niveaux humains et ses expressions vocales sont riches et variées. Les utilisateurs peuvent ajuster librement le timbre, la hauteur et la vitesse de parole pour créer facilement leur propre voix unique afin de répondre aux besoins personnalisés de chacun en matière de voix de personnages dans différents scénarios créatifs.
F5-E2 TTS clone n'importe quel son en seulement 3 secondes
* Heure de sortie :2024
* Agence émettrice :Université Jiao Tong de Shanghai, Université de Cambridge et Geely Automobile Research Institute (Ningbo) Co., Ltd.
* Déploiement en un clic :
https://hyper.ai/cn/tutorials/35468
F5 TTS est basé sur une méthode de génération non autorégressive basée sur la correspondance de flux, combinée à la technologie Diffusion Transformer (DiT), qui peut générer rapidement une parole naturelle, fluide et fidèle au texte original grâce à un apprentissage zéro coup sans supervision supplémentaire. Le cœur d’E2 TTS réside dans sa fonctionnalité totalement non autorégressive. Il peut générer la séquence vocale entière en une seule fois sans nécessiter de génération étape par étape, améliorant ainsi considérablement la vitesse de génération et maintenant une sortie vocale de haute qualité, réalisant un clonage mixte multi-tons en 3 secondes.
Ce modèle prend en charge 3 fonctions :
* Génération de voix pour une seule personne (TTS par lots) : Générer du texte basé sur l'audio téléchargé.
* Génération de podcasts :Simulez une conversation à deux personnes basée sur un audio à deux personnes.
* Génération de plusieurs types de discours :Des audios avec différentes émotions peuvent être générés à partir des audios du même locuteur avec différentes émotions.
Ce qui précède est la revue du modèle de clonage sonore que nous avons préparé pour vous. Si vous êtes intéressé, venez le découvrir par vous-même !