Tutoriel Inclus : Modèle De Clonage Vocal GPT-SoVITS, 5 Secondes De Parole Peuvent Cloner Une Voix Avec Une Similarité De 95%

La « voix » est la « technologie d’éducation précoce » permettant aux humains d’entrer en contact avec l’IA, et c’est également l’une des premières technologies d’IA à sortir du laboratoire et à entrer dans des milliers de foyers. Au départ, les recherches sur la parole intelligente se concentraient sur la reconnaissance vocale, c’est-à-dire sur la façon de faire comprendre le langage humain aux machines.
Le premier système de reconnaissance vocale informatisé était Audrey, développé par AT&T Bell Labs, qui était capable de reconnaître 10 chiffres anglais. En 1988, Kai-Fu Lee a mis en œuvre le premier système de reconnaissance vocale à grand vocabulaire, Sphinx, basé sur le modèle de Markov caché. En 1997, Dragon NaturallySpeaking, le premier système de dictée vocale continue au monde destiné au grand public, a été officiellement lancé. En 2009, Microsoft a intégré des fonctionnalités vocales dans le système d’exploitation Windows 7.
En 2011, le produit phare iPhone 4S est sorti. La naissance de Siri a fait passer la reconnaissance vocale intelligente d'une nouvelle étape à une « interaction ».La même année, Google a annoncé qu'il commencerait à tester Google Search en interne et qu'il déploierait la recherche vocale sur Google.com dans les prochains jours.
La transition de l’audition à la parole est également une pierre angulaire importante pour la prospérité et le développement de l’interaction homme-machine. De nos jours, des maisons intelligentes à la conduite intelligente en passant par les robots, l'interaction vocale est devenue plus fluide avec la mise à niveau continue de l'IA, et diverses applications fleurissent. Sur le plan technique, les principaux fournisseurs de cloud computing ont ouvert leurs capacités vocales d'IA sous la forme d'API, permettant aux développeurs de créer davantage d'applications basées sur elles.
Ces dernières années, alors que les grands modèles continuent d’être populaires, les capacités open source directement au niveau du modèle ont reçu de plus en plus d’attention. Les développeurs peuvent former et affiner les modèles pour améliorer encore l’effet de déploiement entre les modèles et les applications qu’ils développent.
Il n'y a pas longtemps,Le fondateur de RVC (Retrieval based Voice Conversion) (compte GitHub : RVC-Boss) a ouvert le code source d'un projet de clonage vocal GPT-SoVITS.Il a gagné une grande popularité immédiatement après son lancement. De nombreux blogueurs et développeurs ont personnalisé diverses lignes de voiliers en utilisant les voix de personnages de films et de télévision populaires et de personnages d'anime. Les effets dramatiques et l'expérience facile à utiliser ont également attiré un groupe d'internautes, ajoutant une fois de plus de l'huile sur le feu à sa popularité. Selon les tests effectués par les principaux blogueurs, en fournissant seulement un échantillon de voix de 5 secondes, on peut obtenir une voix clonée avec une similarité de 80%~95%.
Actuellement, le didacticiel de déploiement du modèle a été lancé sur le site officiel de HyperAI. Cliquez pour démarrer le clonage :
https://hyper.ai/tutorials/29812
L'éditeur a demandé au personnage original Paimon de faire une apparition en tant que reine dans Legend of Zhen Huan.Paimeng devient l'impératrice Ulanara en quelques secondes.
Le tutoriel de clonage de voix IA réalisé par Jack-Cui, un up master populaire sur la station B, est le suivant :
Le tutoriel étape par étape est le suivant. Une fois que vous avez 5 secondes de discours prêtes, vous pouvez commencer à entraîner votre modèle de clonage vocal !
Préparation des données
Actuellement, ce didacticiel a prédéfini de nombreux tons de caractères classiques pour que tout le monde puisse en faire l'expérience. Si vous souhaitez cloner d'autres sons, vous devez préparer un fichier audio du son au format MP3, de préférence une seule voix (environ 30 secondes). Des fichiers audio de haute qualité peuvent améliorer le réalisme du son cloné.
1. Cliquez sur « Exécuter ce didacticiel en ligne » pour accéder à la plateforme OpenBayes.

2. Cliquez sur « Cloner » pour copier le modèle. (Cette étape ne peut expérimenter que le son téléchargé par Jack-Cui, le maître de la station B)

3. Si vous souhaitez personnaliser le son cloné, vous devez créer un nouvel ensemble de données. Après avoir parcouru « Ensembles de données » dans la barre de menu de gauche, cliquez sur « Créer un nouvel ensemble de données ».

4. Après avoir rempli le « Nom du jeu de données » et la « Description du jeu de données » selon les besoins, cliquez sur « Créer un jeu de données ».

5. Une fois la création terminée, cliquez sur « Télécharger une nouvelle version » dans le coin supérieur droit et téléchargez le fichier audio que vous souhaitez cloner.

Essai de démonstration
1. Une fois la préparation des données terminée, ouvrez « GPT-SoVITS Audio Synthesis Online Demo » dans le « Tutoriel public » dans la barre de menu de gauche, revenez à la page du tutoriel et cliquez sur « Cloner » dans le coin supérieur droit pour cloner le tutoriel dans votre propre conteneur.


2. Actuellement, la démo a lié les données audio de Klee, Concubine Hua, Zhen Huan et Fat Ju. Le nombre de données liées est actuellement plein. Vous pouvez supprimer les données audio inutiles et ajouter votre propre ensemble de données.

3. Après l'ajout, cliquez sur « Vérifier et exécuter ».
4. Après avoir accédé à la page, cliquez sur « Continuer ». La RTX 4090 est recommandée.
L'éditeur a obtenu de nouveaux avantages pour tous les utilisateurs ! Les nouveaux utilisateurs peuvent s'inscrire en utilisant le lien d'invitation ci-dessous pour obtenir 4 heures de RTX 4090 + 5 heures de temps de calcul CPU gratuit.
Lien d'invitation exclusif HyperAI (copiez et ouvrez dans le navigateur pour vous inscrire) :
https://openbayes.com/console/signup?r=Ada0322_QZy7

5. Attendez un moment jusqu'à ce que le statut passe à « En cours d'exécution », puis cliquez sur « Ouvrir l'espace de travail ». Il faut environ 3 à 5 minutes pour cloner et démarrer le conteneur pour la première fois. S'il est toujours dans l'état « allocation de ressources » après plus de 10 minutes, essayez d'arrêter et de redémarrer le conteneur ; si le redémarrage ne résout toujours pas le problème, veuillez contacter le service client de la plateforme sur le site officiel.

6. Après avoir ouvert l'espace de travail, cliquez sur « run.ipynb » sur la gauche, cliquez sur le bouton « Exécuter » dans la barre de menu, puis cliquez sur « Exécuter toutes les cellules ».

7. Recherchez « Exécution sur une URL publique » et ouvrez le lien.

8. Dans le module « Adresse du jeu de données », renseignez l'adresse du jeu de données dont vous souhaitez cloner le son cette fois. Après avoir sélectionné le type de données audio, cliquez sur « Démarrer la formation ». Lorsque le résultat de sortie indique « Le modèle démarre la prédiction, veuillez patienter », revenez à « run.ipynb » et vous verrez « Formation GPT terminée ».




9. Ouvrez l'« Adresse API » sur la droite. Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.

Affichage des effets
1. Sélectionnez le modèle formé dans « Liste des modèles GPT » et « Liste des modèles SoVITS », puis saisissez le texte dans « Texte d'inférence », cliquez sur « Démarrer l'inférence », attendez un instant et vous pourrez vous amuser !

À l’heure actuelle, le site Web officiel d’HyperAI a lancé des centaines de tutoriels sélectionnés liés à l’apprentissage automatique, qui sont organisés sous la forme de blocs-notes Jupyter.
Cliquez sur le lien pour rechercher des tutoriels et des ensembles de données associés :